即刻App年轻人的同好社区
下载
App内打开
姚迟
26关注799被关注0夸夸
不知道说什么好,我给你表演个劈叉吧。
__😖__
姚迟
11天前
尤教授上次让自己的学生给自己录了个视频,让人以为是记者在做采访。视频十几秒提到了“我说的是满血版,不要和我说什么量化版”。
当时很多人攻击尤教授,因为 deepseek R1 本身就是 fp8 的数据类型,本身就是“量化数据类型”,尤教授根本不懂R1。
我认为这不可能吧,应该是口误了,或者其实指的是:既然发布时是fp8的,那么小于8bit的模型才叫量化?

今天尤教授在知乎上高调回应了,赫然写着“我不考虑fp8等阉割手段”……

好吧,是真不懂,没法洗。
11
姚迟
25天前
尤洋教授一直给我聪明、勤奋、爱社交、文质彬彬的形象。

今天突然看到他微博上 diss 袁老师“其实你就弄400台机器……让我看看”,语气还是还挺让人吃惊的【图1】。
去了解下原委:尤教授几天前下结论,说通过API卖deepseek tokens“可能是最差的商业模式”,“每月亏损44.5亿!”。(已经被编辑)【图2】
袁老师今天朋友圈转了篇分析,结合 deepseek MoE 结构,介绍为什么高并发性价比更好。【图3】

不知道尤教授为什么会在微博上diss别人朋友圈的事情。
考虑到尤教授的公司其实也卖deepseek R1 的 api。
我觉得,尤教授破防了。

知乎的这个介绍成本的回答挺好的,推荐感兴趣的阅读
www.zhihu.com
05
姚迟
28天前
央视今天讨论deepseek,仔细一看,有人在评论区放硅基流动的邀请码。哈哈。
20
姚迟
1月前
可能有人还没空了解蒸馏版 R1 和满血(671B)的联系和区别:
deepseek开源R1的同时,还使用一些流行的dense模型将R1做了蒸馏,比如Qwen2.5 32B,Llama 70B等,发现这些尺寸较小的大语言模型,能力也显著提升。比如,32B的qwen,在代码能力上,显著比671B的deepseek v3要强。
说明满血R1通过强化学习得到的思维能力,能够很好地被这些较小尺寸模型“继承”。
对于一些要求不高的任务,比如AI客服,知识库,日常辅助编程,这些较小尺寸的dense模型,是绝对够用的。
硅基流动在这类dense模型上早就有稳定,高速,低价的api服务,今天上新的这批R1蒸馏模型,既是之前dense模型之外多出的选择,也是R1的一种很好替代。
大家多试试吧。

袁进辉: 之前只上线了满血版R1/V3, 用户太多了,体验下降了,今天把DeepSeek所有蒸馏版模型都上线了,10B以下模型完全免费,速度飞快,蒸馏模型也很强大,鼓励大家非不得已都用蒸馏版模型[呲牙]

01
姚迟
1月前
国产推理引擎x国产模型x国产芯片 Deepseek v3、R1 在我司上线了!

在线体验

DeepSeek-R1:r1.siliconflow.cn

DeepSeek-V3:v3.siliconflow.cn

API 文档

docs.siliconflow.cn/api-reference
510
姚迟
2月前
尊贵的用户贡献,龙门飞甲之 “你问我BizyAir是个什么东西,我就告诉你”。
哈哈哈,太牛了。
02:19
00
姚迟
3月前
BizyAir,让普通电脑都没法跑的AI图,可以在车机上跑。

github.com
00:17
10
姚迟
4月前
FLUX官方太牛了,直接下场完善了 FLUX 的生态。
可以做重绘,风格迁移,controlnet。
我和同事也很激动,所以第一时间在BizyAir中上线了。
不用下载模型就可以玩最先进的AI设计,欢迎大家来试试。
00
姚迟
5月前
BizyAir 工作流征集活动开始了,欢迎艺术家,爱好者,用户来冲啊。最高奖可以获赠往返东京的机票,参加全球 ComfyUI 大会。
01