即刻App年轻人的同好社区
下载
App内打开
喝鹅何说说
456关注1k被关注2夸夸
👋 it’s 老何, 持续开发AI应用ing, 在这里记录探索及思考
💡新的一年也在鼓捣AI、具身智能、3D打印结合的新东西
喝鹅何说说
2天前
杭州房子搞定了,3月中旬正式搬到良渚,今天得闲逛逛西湖,杭州真是人杰地灵啊🌿
60
喝鹅何说说
8天前
最近一周和@熊猫ai甘蔗 在杭州,主要是为了来良渚看房,新的一年考虑搬到杭州,离好友@FridaS 更近,有即友也在杭想面基的吗?🙋‍♀️🙋
110
喝鹅何说说
11天前
刚发现,飞书终于把get改成got it了lol

edit: 经即友提醒,是界面语言差异,英文版是got it,中文版是get.
31
喝鹅何说说
20天前
“According to Socrates, all knowledge exists within the student and just needs to be drawn out through skillful questioning.” -- Young Sheldon Season 2 Episode 11

恍然大悟prompting = 苏格拉底反诘法,妙啊
00
喝鹅何说说
21天前
3D Printing Experiment Series:
structure-material match | 太空银笔筒
模型:MakerWorld@GLB_Siegroto
材质:Silk+ Grey
配置:0.2mm层高,2层墙,15%填充
喷嘴:0.4mm
用时:12.6h
用料:124g
00
喝鹅何说说
25天前
关于DeepSeek R1的两点非共识判断(二):
为什么说R1-Zero比R1更强?

春节期间集中关注了行业对DeepSeek R1的评论,发现有些声音对R1的理解存在一些偏差。我分享两个可能非共识的判断:
1. 与唱衰算力和数据的观点相反,我认为R1这条道路因为实验成本更低,会激发更多创新尝试,进一步加速AI的发展,最终推高对算力和数据的需求👉 m.okjike.com
2. DeepSeek这一波发布的新模型里,相比于R1,R1-Zero是一个更强大的模型,只是人类可能看不懂。

DeepSeek的这篇论文写得非常清晰,即使忽略那些公式,核心思路也很容易理解。他们首先在V3的基础上开发了R1-Zero,这是一个采用纯RL方式训练的模型,展现出了强大的推理能力。

由于完全依赖机器自主学习,R1-Zero模型存在三个主要问题:
1. CoT推理过程让人看不懂
2. 中英文混杂输出(不过论文中特意指出中英夹杂输出效果更好lol)
3. 没做values对齐

为了解决这些问题,DeepSeek开发了R1版本。这个过程非常精细:
1. 先用几万条推理数据做监督微调,让输出CoT过程更易懂
2. 接着加入values对齐训练
3. 最后通过多轮RL优化输出

🤔为什么说纯RL版本的R1-Zero更强?

简单说就是因为在进行无限制的探索时,机器反而能够突破人类思维定式的限制,找到全新的解决路径。那些现在看似难以理解的CoT推理过程中,可能隐藏着人类尚未认知的智慧,尤其是在物理、数学等不需要价值观约束的领域,R1-Zero的潜力可能远超预期。

比如论文指出,R1-Zero的数学能力已经比肩甚至超越了OpenAI o1系列模型。在数学题目AIME 2024上,R1-Zero的单次通过率低于o1-0912,但在一致性指标上则高于o1-0912,而且表现曲线依然随着训练时长在提高。

以及论文专门提到了R1-Zero训练过程中的一个aha moment: 团队发现R1-Zero在训练中期突然自己学会了诸如反思和CoT等提高输出质量的方法。

这个发现特别有意思,明明团队只是设置了激励机制,模型却自己发展出了超出预期的解题方法。这种自主进化能力,就是R1-Zero潜力强大的最好证明。

💡这种技术演进路径让我们想起AI发展史上的另一个重要案例:AlphaGo的发展历程。

DeepMind是先有基于人类棋谱的AlphaGo,后来才发展出完全自学习的AlphaZero。而DeepSeek反其道而行,先开发出纯机器学习的R1-Zero,再推出加入人类监督的R1。

这个差异可能源于任务性质的不同:围棋不涉及values问题,可以一路走向完全的机器自学习;而大语言模型则必须考虑与人类社会的对齐,需要在突破性创新之后做必要的约束。
38
喝鹅何说说
25天前
关于DeepSeek R1的两点非共识判断(一):
为什么算力和数据需求会不降反增?

目前业界普遍认为R1的成功意味着算力和数据需求的降低。持这种观点的人主要基于两个层面的判断:算力成本降低和数据依赖减少。

👉 从算力角度看,他们认为DeepSeek公开的训练所用算力成本更低(我们假设公开数据真实),所以简单地认为这等同于未来行业总体也会使用更少的算力。

👉 从数据角度看,他们强调RL训练过程中,数据主要由机器产生,而不是人工产生。也就是说,使用RL来训练,达到同样水平所需要的supervised finetune的数据要更少。

但这种判断基于两个值得商榷的假设:
1. 假设需求不会变多,就是假设明年的需求还是大家重复今年的事情
2. 假设数据需求只发生在supervised finetune这一个环节上

🤔这两个假设为什么不成立?

核心在于,算力和数据其实是需求driven的东西,而不是技巧driven的东西。让我们从四个维度详细分析:

1️⃣ 数据算力相互促进

RL路径虽然减少了在supervised finetune环节对人工标注数据的依赖,但机器自主生成数据的过程本身需要更多算力支持。

这种需求转移不是简单的此消彼长,而是形成正向循环。随着模型能力提升,它能够生成更高质量的数据,这反过来又需要更多算力支持进行训练和优化。

2️⃣ 数据需求形式转变

确实,传统的那种数据标注可能会越来越少,就像现在基本没人做最基础的图像识别标注了,因为模型已经够强了。

但这并不代表整个数据量需求萎缩了,只是需要人注入数据的环节往后推了。

现在AI生态最大的问题是AI应用其实没法落地。没法落地的原因有非常多,但表象的原因就是AI东西不够优秀,不够稳定。所以为了让AI的东西能够优秀,能够稳定,它最后终究需要跟人类社会对齐。

拿R1代表的RL路径来说,一方面RL训练本身就需要新的数据服务,另一方面当你要把新的模型真正落地,让它更稳定、更符合人类预期,这个同时又是需要更多跟人相关的价值观的数据注入的。

3️⃣ 大厂决策机制变化

一个有趣的观察是,唱衰算力的人,和在大厂里真正训练大模型的人,是两拨人lol

真正在大厂训练模型的人,对于有新的、更高效的训练的方式都是非常excited的。因为大家发现可以做更多的事情,那这样反而就需要更多的算力。

更重要的变化发生在决策层面。比如过去训练个模型要花1亿美元,这种决策得CFO点头。现在如果只要100万,VP就能拍板了。门槛一降低,大厂可能就从同时训练2-3个模型,变成同时搞100个实验项目。毕竟现在就算有一半项目失败也不要紧,只要有几个成功就够本了。

4️⃣ 中小企业参与度提升

对于中小公司来说,机会也来了。过去要融个1亿美元才敢开始,现在可能100万就够尝试了。这意味着很多有经验的团队突然发现,他们的想法变得可行了。

比如在AI coding领域,虽然DeepSeek自己说在这块没取得突破(主要是因为evaluation太费时间),但随着更多团队加入进来,这些具体领域的问题迟早会被解决。而每个新团队的加入,都意味着新的算力需求和数据需求的产生。

所以不是说我们有了一个更好的算法,就不需要数据了,或者说我们有了一个更好的算法,就不需要算力了。

R1其实是一个具有里程碑意义的突破,它的价值绝不仅仅在于降低资源门槛,就像AlphaGo一样,它会促进整个AI生态的发展。它会带动包括算力、算法、数据、应用各个方面一起进步,最终加速整个行业的发展。
48
喝鹅何说说
27天前
早上做了个梦,梦见回到我的大学中学小学母校去捐款设立奖学金,醒来发现是初五该迎财神了,这好兆头赶紧迎起来哈哈哈,恭迎五路财神,笑纳八方来财🤑🥳💵💵💵💵💵
00
喝鹅何说说
29天前
想和大家分享下我朋友滕野最新的科幻短文《请支持人类制造!》btw滕野是科幻界冉冉升起的一颗新星,第32届中国科幻银河奖得主,代表作《隐形时代》。

我很激动和他关于AI和具身智能的讨论,能够给他带来一丢丢启发,并且激发他的创作热情!仿佛我也助力了科幻创作事业的发展lol

文章链接在这里👉 mp.weixin.qq.com 各位enjoy😎
21
喝鹅何说说
1月前
当AI生成3D遇上具身智能:
一个即将爆发的交汇点

最近在研究做AI、3D和具身智能结合的新东西,看过了市面上大部分AI生成3D相关的技术路线和应用,有了一些有趣的思考。

现在AI生3D的主流路径基本是从文生图/图生图再到3D生成:
- 文生图/图生图:先用闭源应用midjourney,或利用comfyui接flux、stable diffusion等开源模型;
- 文生3d/图生3d:再利用tripo3d、meshy、腾讯混元3d(混元也有开源模型)等闭源应用,或trellis等开源模型,进行图生3d建模(比直接文生3d的控制性更好一些);
- 其他:hyper3d(rodin)特殊些,支持直接3d生3d

但我看到一个小红书博主分享的工作流特别有意思:是针对甲方已经有一张图,要基于这张图做出3d模型的业务场景,博主先用可灵AI图生视频,再手动截取三视图,之后用三视图再生成3d模型。

他特意强调没有选择用这张图直接图生3d,而是中间加了一步三视图,这样得到的3d模型效果更好。(另外,其实如果没有初始的那张图,也可以直接文生三视图,只是这样生成的三视图往往物体一致性也不能保证,三视图的角度也不够精准。)

这位博主的思路给了我一个重要启发。为什么这个路径效果更好?核心原因可能在于视频生成在物体一致性上的优势。

这让我联想到:未来最有希望做好文生3D/图生3D的,会不会是掌握海量视频数据的快手、字节,或者google (youtube)这样的公司?

更进一步思考,随着高斯溅射(Gaussian Splatting)这样的连续3D表示方法出现,从视频直接生成3D表示变得更加可行。我认为未来的技术架构很可能是在生成高质量视频的同时,直接输出3D表示。这种联合学习的方式不仅更高效,而且能够自然地保证视频和3D表示的一致性。

再进一步,这个方向还能搭上两个顺风车:一是视频生成领域在物体一致性上的突破,二是具身智能世界模型的发展带来的物理世界约束。

我最近觉得非常激动的一个点是,我们其实很快会迎来一个多方成熟的交汇点:AI生成视频 + 具身智能 + 世界模型 + 3d打印。

之后会发生什么呢?

AI可以生成完整的3d场景,在3d场景中可以生成出新的3d模型,并且这些3d模型和场景彼此遵循真实的物理规律进行交互。更要命的是,这些生成的模型都是可以被以很低的成本3d打印出来的。

写到这里,我不禁深情地把玩起桌上的labubu和skullpanda lol

朋友们,just imagine that.

AI generated 3D is more than AI and more than 3D.
118