即刻App年轻人的同好社区
下载
App内打开
永不停止的阿尼塔
108关注516被关注1夸夸
AI 公众号:每天学习一个 AI
推特:anitahityou
前电影节评审,现 AI 区块链从业者
永不停止的阿尼塔
4天前
很多人觉得 AI 的护城河是数据、GPU、模型,但越来越觉得不是

真正的护城河可能变成是 Research Culture + Research Leadership

大厂们频繁抢人背后是深深的焦虑

John Jumper(AlphaFold 核心负责人,2024 诺奖得主)离开 Google DeepMind 加入 Anthropic

Noam Shazeer(transformer 作者之一,Gemini 核心负责人)离开 Google 加入 OpemAI

Jonas Adler(Gemini Coding)和 Alexander Pritzel(Gemini Training)预计加入 Anthropic

因为 Frontier AI 已经进入下一个阶段,目前也不一定可以做出来,有 GPU 也不一定知道怎么训练。

真正稀缺的是那些踩过无数坑,又知道 scaling law 在哪里失效、知道 RL、pretraining、post training 每一步怎么调的人

就很像 NBA,球员(研究员)比球队(公司)更值钱
00
永不停止的阿尼塔
4天前
跑了下 GLM 编程能力,总体来说还是差 Codex 一截

1 running time 整体推理解析、编程速度要比 Codex 1/3,等的我 20 个波比跳做好

2 默认 UI 设计还是偏国产的土(P1 GLM, P2 Codex)

3 Output 输出缺乏自动 improvement,需要不断喂 feedback
00
永不停止的阿尼塔
4天前
沃什的风格挺有意思的

来了也不是要加息降息
加息还是降息真没那么重要

就是来把美元美债格局改一下
把债务分摊到每一个老百姓身上
00
永不停止的阿尼塔
8天前
即刻
10
永不停止的阿尼塔
10天前
每年一次的 AWS Summit 今天开幕,比较混合得把 Cloud、Agent、具身、LLM 等都融合在一个展览里了。

看到了小鹏机器人 IRON,实体外包裹的类肌肉组织确实有点渗人,恐怖谷效应犯了,它的最大争议就是外形设计的时候为何要把胸部和屁股都做出来,看起来一个男性凝视视角的女性机器人。可是它的工作环境并不需要适配这些。

另外就是惊讶很多垂类公司在死磕 vertical model,包括游戏的世界模型,autodrive 的基建等等,这些都需要极强的 data training 能力和足够大的算力支撑,本质也是资本游戏

还很巧得遇到了 Tintin VergeX 项目,看到了“量化平权”四个大字被吸引过去,一看这不是咱们的老熟人嘛?哈哈哈哈!

还有几个 AI 项目的 co-founder 里也有不少有过 web3 的经验

AWS Summit 到了今年,基本也都是纯 AI 叙事了
00:05
00
永不停止的阿尼塔
14天前
传闻智谱 GLM 5.2 的功劳,很大部分之前寄希望于的是 DeepSeek,不过 V4 以后在这一轮还没爆发出来,看看 Q3Q4 是不是可以直接让 Anthropic 破防。

其他大模型公司如果还卷不出天际线,那么市场上多数的大模型公司将面临倒闭的风险,尤其是独立创业的大模型公司,意味着你既没有生态,也没有最前沿的技术。
00
永不停止的阿尼塔
14天前
和国内某头部模型公司朋友聊了下,GLM本轮迭代冲击对整个行业是巨大的

它用极致压缩的时间追赶上了顶尖大模型。GLM-5/5.1 标注其综合能力对标Claude Opus 4.6,技术路线明确从零散试错编码转向标准化Agent工程。

以往行业靠算力、数据、强化学习可维持数月到一年的领先,现在的优势周期仅剩数周。那么未来,用户能够感知到的模型差距就会被抹平,用户评判只看代码能力、任务稳定性、价格三点,不在乎榜单与训练细节。

GLM证明模型性能只是易追赶的工程成果,无法形成永久壁垒。

市场需要重新厘清四个关键问题:

1. 模型企业高估值的长期支撑是什么?

2. 算力投入能否形成可持续壁垒?

3. 开源追平闭源后,闭源服务如何保住溢价?

4. 模型无明显差距时,企业核心盈利路径在哪?

未来竞争重心不再是堆更强基础模型,而是掌握用户入口、落地真实场景、实现稳定变现。

真正的隐患不在于模型变强,而是迭代速度超出预期——市场意识到,单纯的基础大模型,远没有炒作中价值那么高。

那么距离 AI 的泡沫破灭还剩多久?Anthropic 的高估值还能维持多久?
02
永不停止的阿尼塔
17天前
黄金是信用体系的恐慌指数
AI 是信用体系的救星

大家主观的、一厢情愿的认为和希望 AI 可以解决债务周期的问题
00
永不停止的阿尼塔
17天前
身边的 VC 几乎全看硬件去了。

现在对于世界模型的定论还在热议中,那为什么自然语言、LLM 在训练具身时候是完全不够用的呢?

因为 LLM 是把语言里的相关性压到极致,只要训练数据够大,它不一定真的理解因果,也能知道哪些词、概念、步骤经常一起出现,生成一个看起来很合理的答案。

这好像你是看一个由 NPL 生成的视频,炒鸡蛋这个动作看起来很完美了,但是不见得理解了背后的物理规律。

世界模型就不一样。

世界不是文本,不是静态语料,而是一个会被行动改变的系统。

机器人煎 pancake,不是在生成一段“倒面糊、加热、翻面”的视频,而是真的要进入厨房完成任务, 它需要理解,比如这个锅子太热,会糊;锅不够热,不成型;面糊太厚,要等更久;面糊太薄,容易破;翻早一秒,会散;翻晚一秒,会焦。

视频生成只要画面合理,机器人任务必须结果正确。

这就是 LLM 和世界模型最大的差异,LLM 预测下一个 token,而世界模型预测下一个后果。

AI chatbot 走向 agent,真正的门槛不是更会说话,而是理解:

我做了什么,世界会发生什么。
00
永不停止的阿尼塔
19天前
DeepSeek 完成超过 500 亿人民币首轮融资,梁文锋个人出资 200 亿。

但这 200 亿,不是白花花的现金从他个人口袋里掏出来的。

更准确地说,这是梁文锋把过去几年通过幻方量化积累起来的资本、管理公司权益、自有资金份额,以及 DeepSeek 股权增值后的资本信用,重新打包进了一个控制权结构里。

据报道,投资人并不是直接投 DeepSeek,而是投向一个由梁文锋管理的有限合伙。这样做的目的很明确:外部资本可以进来,但创始人控制权不能被稀释掉。

一般 AI 公司融资,是用股权换算力、人才和时间,而 DeepSeek 是在告诉市场,资本可以参与,但不能主导公司方向。

这轮融资之后,DeepSeek 不再只是一个模型公司。

它开始变成中国 AI 产业里少数几个同时具备技术、资本、算力、组织控制权的超级变量。
00