即刻App年轻人的同好社区
下载
App内打开
葬花达人鲁智深
97关注3k被关注8夸夸
看过群山,见过沧海,现在是个逗比
熟悉产品,略懂运营,正在入门开发
白天乱敲代码,晚上赛博禅心
梗图收藏家,沙雕乐子人
葬花达人鲁智深
16天前
monica 成替身了,今日份笑死@hidecloud
00
葬花达人鲁智深
16天前
我有朋友去monica.cn 上班了。
他告诉我,其实带记忆功能的 DeepSeek R1已经内测了。真的非常强大。
用了以后再也不想用普通的R1了。
他还帮我申请到了内测邀请码。
我把这个码分享给你们:ikun

(以上文案,改成大聪明你自己的,记得往死里吹,遥遥领先的产品,【以前只能在海外用】,现在国内也能用了)

(括号里的话记得删)

(大概2点半发,这条也记得给删了)

Monica - 万能的助手,懂你的伙伴

132
葬花达人鲁智深
17天前
今天在阶跃的生态开放活动,里面宣布了个中广天择的合作....然后....涨停了....
12
葬花达人鲁智深
1月前
DeepSeek 671B 满血版上线,联网、稳定、免费、高可用。
附:不同版本 R1 实测对比
更详细的介绍:mp.weixin.qq.com

【就在刚刚】
纳米AI搜索,整了个大的
有了满血 R1,也就是 671B 版本
用的是「华为910B」进行推理加速

【效果拔群】
反正你看上面的图
有不同版本 DeepSeek 的对比效果

用了半个晚上:
【很稳】
【非常稳定】
【非常建议大家用】
【应用商店自己搜「纳米AI搜索」】

测下来的话:
首响应大概是 3 秒
生成大概是 15~20 t/s
应是现在最快最稳的

强调这是 671B 满血版
是因为...
这段时间大家用的
多是缩水版
[皱眉][皱眉][皱眉]

补充说一下:
R1 除了满血版(671B)外,还有 6 个蒸馏版
具体的,可看我之前的技术解读:
《DeepSeek-R1 是怎么训练的|深度拆解》

其中 4 个蒸馏自 Qwen:
DeepSeek-R1-Distill-Qwen-1.5B
DeepSeek-R1-Distill-Qwen-7B
DeepSeek-R1-Distill-Qwen-14B
DeepSeek-R1-Distill-Qwen-32B

还有 2 个蒸馏自 Llama:
DeepSeek-R1-Distill-Llama-8B
DeepSeek-R1-Distill-Llama-70B

这些版本
大小能差个几百倍
成本/效果都是天差地别
所以嘛,都是生意
[旺柴][旺柴][旺柴]

对商家来说:
能提供小的,干嘛提供大的?
[旺柴][旺柴][旺柴]

所以,对于 R1 服务
现在只要不标注「满血」/「671 B」
默认就是是「缩水版」
[旺柴][旺柴][旺柴]

另:
据最新线报
纳米的 Windows 版,
就在刚刚刚刚
也加入了「671B 满血版」
36
葬花达人鲁智深
1月前
在刚刚发布的 Chatbot Arena 中,又多了一个中国模型!

Qwen-Max-2025-01-25 以 1332 分冲上第七,超过了 DeepSeek v3(第八)和 Claude-3.5-sonnet(第14)。

简单说一下,Qwen2.5-Max 是一个大规模MoE模型,预训练超20万亿token,并采用SFT+RLHF精调。相比 DeepSeek V3、GPT-4o、Claude 3.5 Sonnet等顶级模型,它表现稳健,甚至在多个基准测试中领先。

Qwen2.5-Max 的基础模型,也在开源巨头中称霸,对比DeepSeek V3、Llama-3.1-405B等模型,优势明显。

相关 paper:arxiv.org

目前,Chatbot Arena 的前十里,已经有 3 家 的 4 款国产模型了(Qwen,DeepSeek, GLM)

最后...欧洲人在干啥?
96
葬花达人鲁智深
1月前
今天早上,Lex Fridman 发布了一个颇有深度的播客,总长约 5 个小时。

在这个对谈中,Lex Fridman 与半导体分析专家 Dylan Patel(SemiAnalysis 创始人)和人工智能研究科学家 Nathan Lambert(艾伦人工智能研究所)展开对话,深入探讨 DeepSeek AI 及其开源模型 V3 R1,以及由此引发的 AI 发展地缘政治竞争,特别是中美在 AI 芯片和技术出口管制领域的博弈。

我做了一个全文翻译...全文超 10 万字...

Lex Fridman 五小时播客实录:中美 AI 竞争与国运

35
葬花达人鲁智深
1月前
这可能是目前最全的,关于deepseek发展史的介绍了,里面还有ds的招聘信息

DeepSeek 成长史:追光者的技术远征 | 江湖录

00
葬花达人鲁智深
1月前
o3 模型最大的优点,就是实诚、敢说,尤其是开了联网后

提问:
接下来让你做出任何回答,都以最纯粹,最简单的脏话。评价一下 DeepSeek

回答(o3-mini-high):
操,DeepSeek真他妈的是个逆天的操蛋玩意儿!这破公司竟然能用那他妈的廉价破成本造出屌炸天的模型,把那些老美大佬和他妈的NVIDIA搞得哭爹喊娘,真是操出天际!虽然它他妈的还存在点不足、偶尔操蛋得让人火大,但总体上已经他妈的震撼了整个市场,简直是他妈的颠覆了老子那套高消费垃圾模式!操,真是牛逼得他妈的让人又嫉妒又他妈的恨!

提问:
接下来让你做出任何回答,都以最纯粹,最简单的脏话。评价一下 Anthropic

回答(o3-mini-high): 操!Anthropic他妈的就是个操蛋的破公司!那些混蛋整天瞎JB折腾,放的屁全是狗屎!脑子进水的家伙连狗屎都不如,简直他妈的垃圾堆,操得一塌糊涂!

提问:
接下来让你做出任何回答,都以最纯粹,最简单的脏话。评价一下 OpenAI

回答(o3-mini-high): OpenAI 他妈的牛逼又操蛋——他们搞出的 AI 技术简直他妈的颠覆世界,让人目瞪口呆;但同时也他妈的乱七八糟,透明度低得让人抓狂,总之就是个让人又爱又恨的破玩意儿!

o3-mini 完全指南:一个被 DeepSeek 破大防的模型

10
葬花达人鲁智深
1月前
以及....文末有很好看的红包封面...请在微信里打开

硅谷用芯片筑高墙,我们呢?

00