即刻App年轻人的同好社区
下载
App内打开
夏虫不可以语冰5533
756关注6k被关注2夸夸
现小红书投资,看 AI 和科技,看港美股
正在学习当个好的 Portfolio Manager
🌍: 568048220
夏虫不可以语冰5533
2天前
语音的弊端:带宽窄(没法做复杂 task 比如 Excel)、认知负载比较大(有个 screen external memory,用到的人类认知负载少人不用再一直 recall)、不精确(比如修图也不行)、在 Open office 会有尴尬的问题。比较适合:手忙眼忙场景(开车做饭)、简单的短 query 和具体指令(开电视),还是更适合 co-pilot。
31
夏虫不可以语冰5533
2天前
​在蒸汽机时代,工厂的动力来自于一台巨大的中央蒸汽机,通过天花板上复杂的传动轴和皮带,把动力分发给每一台机器。

​当电动机刚出现时,工厂老板们想:太好了,电比蒸汽便宜。

于是他们把蒸汽机拆掉换成了电动机。但工厂内部结构完全没变,依然是复杂的传动轴和皮带。

​结果是生产力几乎没有任何提升。老板们很困惑。

​直到 20-30 年后,新一代工厂主才想明白:既然有了电,为什么还要用传动轴?于是工厂给每一台机器都装上了独立的小电机。

​所以传动轴消失了,工厂采光变好了,安全性提高了;机器不再需要围着“动力源”摆放,而是可以根据“工作流程”摆放。

流水线因此诞生。

现在的大多数 AI 应用,就像是给旧工厂换了引擎,最有代表性的是 Co-Pilot。

​这些 Sustaining Innovation 使得工作流没变,只是某些步骤快了一点点;这解释了为什么生产力还没有爆炸性增长。
62
夏虫不可以语冰5533
2天前
Jeff Dean 刚刚在 NeurIPS AMA 上的分享,关于:pretraining data、LLM benchmarks、Gemini 3 Architecture等

Q1: 预训练数据是否正在耗尽? Scaling Law 是否撞墙?
我不怎么相信这种说法。 Gemini 目前只使用了一部分视频数据进行训练。
我们花了大量时间在筛选正确的数据上。例如,互联网上充斥着由低能力模型生成的劣质数据,这会损害模型性能。目前有很多自动化工作正在致力于自动化的数据筛选流程。
我们可以通过加水印(watermarking)来追踪某些数据是否由 AI 生成,但市面上有太多带水印或不带水印的模型,追踪起来很有难度。

Q2: 关于预训练数据配比的评价,比如医疗数据和多语言支持。
预训练就像一场零和博弈(zero-sum game),需要平衡不同类型的数据和来源。
关于多语言支持: 既然预训练是零和博弈,我们可能会在参数空间(parameter space)中增加更多模块(modules),而不是试图同时在基础模型中针对多种语言进行微调。
通过利用模块化,我们可以为基础模型带来更多的训练数据算力(training data flops)。

Q3: 关于 LLM(大语言模型)基准测试 / 评估的评价?
模型可能会从公开基准测试中“学习”(导致刷榜),因此一个基准测试的有效时间窗口其实是非常有限的。
除了公开基准测试,Gemini 还有内部基准测试(internal benchmarks),这些测试会随着迭代不断修订。
当我们看到 Gemini 在某个基准测试中得分几乎为 0% 时,这通常意味着很难对其进行改进。
当评估显示得分在 5%~30% 之间时,这处于我们的舒适区(comfort zone),我们可以投入更多精力来提升模型在这些方面的能力。

Q4: 作为建筑系学生,我们发现 Nano Banana Pro 在理解建筑和空间推理能力方面表现非常好。你们是否专门用了建筑图像来训练它?
因为 Nano Banana Pro 是在大量不同类型的数据上训练的,这当然包括建筑图像,所以它在建筑以及许多其他领域都显示出了进步。

Q5: 关于提高 LLM 性能 / 系统效率的建议?
有一份 Google 内部文档,是我 (Jeff Dean) Sanjay Ghemawat 写的,叫做 "Performance hint"(性能提示)。Google 员工可以随意阅读。

Q6: Gemini 3 与之前的 Gemini 2.5 版本有何不同?有什么重大的架构或其他改进吗?
当然,它仍然是 Transformer 架构。我有点难过的是,目前它还不能做到持续学习(continual learning)。
实际上,Gemini 3 的创新来自于许多小想法的堆叠,其中每个想法可能只贡献了 5%、3% 8% 的改进。
我们针对这些想法做了许多小规模的实验和消融研究(ablation studies)。

Q7: 对开源模型的评价,以及对中国开源模型的看法。
实际上我很早就是开源模型的信徒。Google 也开源了 Gemma 系列模型。
中国的模型很强。
拥有大量开源模型来针对你自己的**下游任务(downstream tasks)**进行训练是很棒的。

Q9: Google Brain DeepMind 合作背后的故事是什么?
一开始两个团队做着完全分离的任务。一个团队在做 MoE(混合专家模型)、扩展(Scaling)、Transformer 等,而另一个团队在做一些传统的机器学习(ML)工作。
任务和人才都是**碎片化(fragmented)**的。我觉得这很蠢,所以推动了合并这些努力。
让习惯于不同时区的人紧密协作,花费了一些时间和努力来适应。

Q10: 关于嵌入学习(embedding learning)的评价?
如果能有一个端到端(e2e)的学习,用于生成能适应不同下游任务的通用嵌入(general embeddings),那将是非常棒的;此外,混合检索长上下文系统(hybrid retrieval long-context system)也会很棒
12
夏虫不可以语冰5533
4天前
Duolinguo 的天花板 = 人类天生的游戏冲动的商业化空间。比如 2006 Luis 做了一个游戏,让 7 万名玩家边玩游戏边标注完了 1500 万次 Google Image 的数据。
12
夏虫不可以语冰5533
4天前
和云厂的朋友们聊,早期的云有 Data Gravity,先让你把数据存上去,然后慢慢开始有数据仓库,数据越来越复杂变成了数据湖,最后长出了数据分析和上层应用,类似 Databricks 这样的 Single Point of Truth;现在的云慢慢长出了 AI Gravity,一开始是把智能搬到数据的旁边,后面慢慢变成了智能在哪数据就倾向放在哪。听的津津有味之余,在想:What's my Gravity? 可能是我女鹅。
02
夏虫不可以语冰5533
6天前
“The telescope was an invention, but looking through it at Jupiter, knowing that it had moons, was a discovery. It's interesting that large language models in their current form are not inventions, they are discoveries. It has moons. And that's what Galileo did."
00
夏虫不可以语冰5533
7天前
Mark Chen Gemini 3 的回应 TLDR version:

1/ 对于 Gemini 3 ,Mark Chen 很自信:基准测试说明不了什么问题,OpenAI 内部已经有模型在性能上可以匹配 Gemini 3,并且很快就会发布更强的后续模型

2/ 预训练 (Pre-training) 的落后:Mark Chen 承认过去两年 OpenAI 将大量资源投入到了“推理”上,但在过去六个月里,Jakub(OpenAI 首席科学家)和我做了大量工作,把这块肌肉重新练回来,我们正在“超级加倍”(supercharging)我们的预训练,我们今天产出的模型可以在预训练上轻松地与 Gemini 3 正面交锋(go head-to-head)

https://www.youtube.com/watch?v=ZeyHBM2Y5_4

03
夏虫不可以语冰5533
7天前
传统OS垄断对端的通信,帮应用完成任务执行;AI OS垄断对用户的交互,帮用户分发任务给应用。
52
夏虫不可以语冰5533
11天前
看完 Demis 的纪录片《The Thinking Game》:

1/ Demis 做了游戏公司以后,重新回学校读神经科学 PhD,因为「大脑是通用智能存在的唯一证据」

2/ 当时在学术界提 AI 是令人尴尬的,所以Demis 选择了成立公司来做这件事,DeepMind Day 1 的目标就是AGI

早期投资人们都只关心商业模式和产品,Peter Thiel 是第一个投资人

3/ 团队做的第一件事是把 RL 与深度学习结合,打造了首个通用 AI 雏形:DQN

4/ 为了解决严重的算力短缺,Demis 选择将公司快速卖给谷歌,因为获得算力、节省时间、加速 AGI 比钱重要多了;紧接着 AlphaGo Move 37 成为了著名的Sputnik Moment

5/ Demis 身上结合了父亲的艺术气质(喜欢 Bob Dylan 的歌)和自己的逻辑天赋(从小是象棋神童),90年代初就拒绝 Peter Molyneux 的百万英镑的offer,还是选择了去剑桥读书

6/ 一个重大的人生转变来自于: 12 岁参加国际象棋比赛,厮杀了半天和才对手打了个平手,Demis 很难受,突然意识到:集结 300 个下棋的脑力解决癌症问题比下棋更有意义

7/ 朋友们评价 Demis:是好胜的、有竞争性的,希望能通过比赛证明科技与人类的智能高低

8/ 还有个很有意思的细节是,AlphaFold 参加CASP比赛(蛋白质折叠届的奥林匹克)成功后,团队本来打算提供“代预测服务”;

Demis 说:为什么不直接把世界上所有的蛋白质都预测完,然后公开给全人类?这一举动就像:“拉开了窗帘,让人类第一次看清了生命的微观世界,将其作为礼物无偿回馈给了全世界”
511
夏虫不可以语冰5533
28天前
最大的韭菜是 Meta,最大的赢家是 Google
02