即刻App年轻人的同好社区
下载
App内打开
Xuanhao
48关注15被关注0夸夸
be less wrong
Xuanhao
7月前
MS最近一篇Research估计GPT-5用20-30万块H100训练130-200天,计算量比GPT-4大概多了25-100倍,真实情况肯定也不会差太远。H100的成本大概是3$/hour,这么拍的话,光电力成本就是10-40亿美元,从这个基本常识出发,任何鼓吹开源模型都是在搞笑?

看Sam最近在MIT的发言,下一代模型块发布了,叫GPT-5或者其他名字也好,没有任何理由说模型能力进入plateau,等发布的时候,预计所有开源模型看起来都像玩具:)

btw,GOOGL,AMZN,META,MSFT这四家预计2024年在数据中心上的capex超1500亿美元,这种规模其他人只能当吃瓜群众。除这四家旗下的模型,以及Elon的xAI以外,估计其他所有大模型公司在2024、2025都会被收购,或者gg。
00
Xuanhao
8月前
目前AI应用领域的主要矛盾就是startup们对OpenAI的进展预期过于保守,而OpenAI的实际进展比所有人想得都要激进。
00
Xuanhao
8月前
Gemini的Sholto Douglas说如果他们有足够多的算力,项目进度会快5倍,OpenAI的境遇只会更夸张。给天才研究员们足够的compute去run experiment,进步速度才能上来,现在算力依然是最大的瓶颈,市场对Nvidia数据中心的需求在未来三五年大概率看不到头。

此外这里能看见模型的self-improve主要是两块,以后这些loop会越来越强:

1)模型本身能力会放大和加速研究员的能力,比如写代码和做research
2)合成数据,这在未来是数据的大头
00
Xuanhao
8月前
Netflix的拍的三体里面,罗辑是个黑人,这是不矫枉过正了…
00
Xuanhao
9月前
Capitalism is a low AI phenomenon.
00
Xuanhao
9月前
对理想MEGA黑得最狠的梗: 交车仪式不许带鲜花
00
Xuanhao
9月前
马后炮地看,Transformer的涌现其实是一个必然,因为关键的building blocks前几年都发明出来了。2014年的Attention Mechanism Seq2Seq是基本思想,2015年的Residual Connection提高了多层深度神经网络训练效率,2016年Layer Normalization让深度神经网络训练更稳定,降低了复杂度,2017年Transformer出现。

1)Tranformer 的里面attention/QKV都是并行计算
2)GPU计算能力突飞猛进

OpenAI很快就认准了这条道,2018年Alec Radford和Ilya做了GPT-1,后面的故事大家都知道了:
2019 年:GPT-2
2020年:GPT-3
2021年:GPT-3 API
2022年:GPT 3.5+ChatGPT
2023年:GPT-4
2024年:Sora + GPT-4.5/GPT-5 + ??
00
Xuanhao
9月前
字节买了20万块H20(英伟达给的阉割版,据说性能大概H100的六分之一),估计价格大概不到200亿的样子,the GPU in China.
00
Xuanhao
9月前
AGI/ASI is the only thing matters.

AGI/ASI is the only thing matters.

AGI/ASI is the only thing matters.

2025
00