即刻App年轻人的同好社区
下载
App内打开
夏虫不可以语冰5533
758关注6k被关注2夸夸
现小红书投资,看 AI 和科技,看港美股
正在学习当个好的 Portfolio Manager
🌍: 568048220
夏虫不可以语冰5533
00:05
用户觉得 ChatGPT 很懂 ta,engi 们打开后台发现 memory 是空的。
00
夏虫不可以语冰5533
1天前
Humans search broadly and think narrowly.
01
夏虫不可以语冰5533
10天前
100km 先刷为敬
00
夏虫不可以语冰5533
13天前
语音的弊端:带宽窄(没法做复杂 task 比如 Excel)、认知负载比较大(有个 screen external memory,用到的人类认知负载少人不用再一直 recall)、不精确(比如修图也不行)、在 Open office 会有尴尬的问题。比较适合:手忙眼忙场景(开车做饭)、简单的短 query 和具体指令(开电视),还是更适合 co-pilot。
31
夏虫不可以语冰5533
13天前
​在蒸汽机时代,工厂的动力来自于一台巨大的中央蒸汽机,通过天花板上复杂的传动轴和皮带,把动力分发给每一台机器。

​当电动机刚出现时,工厂老板们想:太好了,电比蒸汽便宜。

于是他们把蒸汽机拆掉换成了电动机。但工厂内部结构完全没变,依然是复杂的传动轴和皮带。

​结果是生产力几乎没有任何提升。老板们很困惑。

​直到 20-30 年后,新一代工厂主才想明白:既然有了电,为什么还要用传动轴?于是工厂给每一台机器都装上了独立的小电机。

​所以传动轴消失了,工厂采光变好了,安全性提高了;机器不再需要围着“动力源”摆放,而是可以根据“工作流程”摆放。

流水线因此诞生。

现在的大多数 AI 应用,就像是给旧工厂换了引擎,最有代表性的是 Co-Pilot。

​这些 Sustaining Innovation 使得工作流没变,只是某些步骤快了一点点;这解释了为什么生产力还没有爆炸性增长。
62
夏虫不可以语冰5533
13天前
Jeff Dean 刚刚在 NeurIPS AMA 上的分享,关于:pretraining data、LLM benchmarks、Gemini 3 Architecture等

Q1: 预训练数据是否正在耗尽? Scaling Law 是否撞墙?
我不怎么相信这种说法。 Gemini 目前只使用了一部分视频数据进行训练。
我们花了大量时间在筛选正确的数据上。例如,互联网上充斥着由低能力模型生成的劣质数据,这会损害模型性能。目前有很多自动化工作正在致力于自动化的数据筛选流程。
我们可以通过加水印(watermarking)来追踪某些数据是否由 AI 生成,但市面上有太多带水印或不带水印的模型,追踪起来很有难度。

Q2: 关于预训练数据配比的评价,比如医疗数据和多语言支持。
预训练就像一场零和博弈(zero-sum game),需要平衡不同类型的数据和来源。
关于多语言支持: 既然预训练是零和博弈,我们可能会在参数空间(parameter space)中增加更多模块(modules),而不是试图同时在基础模型中针对多种语言进行微调。
通过利用模块化,我们可以为基础模型带来更多的训练数据算力(training data flops)。

Q3: 关于 LLM(大语言模型)基准测试 / 评估的评价?
模型可能会从公开基准测试中“学习”(导致刷榜),因此一个基准测试的有效时间窗口其实是非常有限的。
除了公开基准测试,Gemini 还有内部基准测试(internal benchmarks),这些测试会随着迭代不断修订。
当我们看到 Gemini 在某个基准测试中得分几乎为 0% 时,这通常意味着很难对其进行改进。
当评估显示得分在 5%~30% 之间时,这处于我们的舒适区(comfort zone),我们可以投入更多精力来提升模型在这些方面的能力。

Q4: 作为建筑系学生,我们发现 Nano Banana Pro 在理解建筑和空间推理能力方面表现非常好。你们是否专门用了建筑图像来训练它?
因为 Nano Banana Pro 是在大量不同类型的数据上训练的,这当然包括建筑图像,所以它在建筑以及许多其他领域都显示出了进步。

Q5: 关于提高 LLM 性能 / 系统效率的建议?
有一份 Google 内部文档,是我 (Jeff Dean) Sanjay Ghemawat 写的,叫做 "Performance hint"(性能提示)。Google 员工可以随意阅读。

Q6: Gemini 3 与之前的 Gemini 2.5 版本有何不同?有什么重大的架构或其他改进吗?
当然,它仍然是 Transformer 架构。我有点难过的是,目前它还不能做到持续学习(continual learning)。
实际上,Gemini 3 的创新来自于许多小想法的堆叠,其中每个想法可能只贡献了 5%、3% 8% 的改进。
我们针对这些想法做了许多小规模的实验和消融研究(ablation studies)。

Q7: 对开源模型的评价,以及对中国开源模型的看法。
实际上我很早就是开源模型的信徒。Google 也开源了 Gemma 系列模型。
中国的模型很强。
拥有大量开源模型来针对你自己的**下游任务(downstream tasks)**进行训练是很棒的。

Q9: Google Brain DeepMind 合作背后的故事是什么?
一开始两个团队做着完全分离的任务。一个团队在做 MoE(混合专家模型)、扩展(Scaling)、Transformer 等,而另一个团队在做一些传统的机器学习(ML)工作。
任务和人才都是**碎片化(fragmented)**的。我觉得这很蠢,所以推动了合并这些努力。
让习惯于不同时区的人紧密协作,花费了一些时间和努力来适应。

Q10: 关于嵌入学习(embedding learning)的评价?
如果能有一个端到端(e2e)的学习,用于生成能适应不同下游任务的通用嵌入(general embeddings),那将是非常棒的;此外,混合检索长上下文系统(hybrid retrieval long-context system)也会很棒
12
夏虫不可以语冰5533
15天前
Duolinguo 的天花板 = 人类天生的游戏冲动的商业化空间。比如 2006 Luis 做了一个游戏,让 7 万名玩家边玩游戏边标注完了 1500 万次 Google Image 的数据。
12
夏虫不可以语冰5533
16天前
和云厂的朋友们聊,早期的云有 Data Gravity,先让你把数据存上去,然后慢慢开始有数据仓库,数据越来越复杂变成了数据湖,最后长出了数据分析和上层应用,类似 Databricks 这样的 Single Point of Truth;现在的云慢慢长出了 AI Gravity,一开始是把智能搬到数据的旁边,后面慢慢变成了智能在哪数据就倾向放在哪。听的津津有味之余,在想:What's my Gravity? 可能是我女鹅。
02
夏虫不可以语冰5533
18天前
“The telescope was an invention, but looking through it at Jupiter, knowing that it had moons, was a discovery. It's interesting that large language models in their current form are not inventions, they are discoveries. It has moons. And that's what Galileo did."
00
夏虫不可以语冰5533
18天前
Mark Chen Gemini 3 的回应 TLDR version:

1/ 对于 Gemini 3 ,Mark Chen 很自信:基准测试说明不了什么问题,OpenAI 内部已经有模型在性能上可以匹配 Gemini 3,并且很快就会发布更强的后续模型

2/ 预训练 (Pre-training) 的落后:Mark Chen 承认过去两年 OpenAI 将大量资源投入到了“推理”上,但在过去六个月里,Jakub(OpenAI 首席科学家)和我做了大量工作,把这块肌肉重新练回来,我们正在“超级加倍”(supercharging)我们的预训练,我们今天产出的模型可以在预训练上轻松地与 Gemini 3 正面交锋(go head-to-head)

https://www.youtube.com/watch?v=ZeyHBM2Y5_4

03