本期播客信息量很大,部分观点memo:
1. 开源模型有可能会打掉很多闭源模型的商业价值。如果马斯克的xAI持续开源,那么开源模型的水位会保持在高位。
2. 大模型是巨头的游戏,VC是投不动的。计算竞争非常残酷,模型收敛如此之快是没想到的,如果没有背靠巨头,很容易掉队出局。
3. “如果你让模型看一万次苹果掉下来,它能不能发现万有引力定律?如果更充足、更广泛的数据灌进去,能不能发现人类没发现的问题和规律?这又是一个新的文艺复兴。”
4. 关于训练不同水平模型的能源和成本的估算:
“
假设GPT-3.5使用500张H100训练15天,大概需要25万度电,也就是三峡产电量或上海的用电量一天的0.05%左右,德州的0.02%。
假设GPT-4使用8000张H100训练100天,大概需要2600万度电,需要三峡或上海一天的5%左右,德州的2%。
假设GPT-5使用3.2万张H100训练100天,大概需要1.1亿度电,需要三峡或上海一天的20%左右,德州的8-10%。
你要算成本的话,每张H100租用最低3-4美元/小时,大客户能再便宜点。
”
5. “美股AI相关最大的几个生意:第一波最受益的是芯片,芯片里最受益的是英伟达和台积电;第二波是广告平台Meta和Google(广告匹配效率提升);第三波云厂商,微软、AWS,因为芯片和模型都要跑在云厂商上,企业客户继续上云需求很强,云厂商未来每年很长时间保持年化15%复合增长都有可能;最后是两个终端Apple和Tesla——这些都是大基建最重要的几个关键玩家。”
6. 训练量 = 参数量 × 训练token量 × 6,number of parameters x tokens to train x 6 =number of GPU x FLOPS per GPU per second x Time x utilization
举例,GPT-4:1.8 trillion 参数 x 13 trillion token x 6 = 25,000 GPU x 19.5 TFLOPs(19.5 万亿次) x 60s x 60mins x 24h x 100days x 利用率(利用率能到50%属于比较好的,最强的能到60%-70%)