Google 布局 TPU 开始于10年前,虽然当时的目的不是为了研发大模型,但依然可以说得上是目光长远,过程中的迭代和执行也做得到位。我有幸在18年接触过初代TPU,后来主要使用V3,最近开始用V5e,亲历了几代的发展进步。如今看到冰冻三尺,绝非一日之寒。
这不是一件轻易可以做到的事情。以Meta为例,几年前内部开始自研AI芯片,却也依然从Nvidia买了几十万张H100(不过Mark下单得早,时机上也显得很有远见)。短期来看,做基础大模型的公司的priority list里,降低算力成本应该不是排在首位的;即使是要降低算力成本,自研也绝非首选,还是有很多其他方式来达到目的,这一点上Mosaic ML和Anthropic都很有参考价值。
长期来看,一家公司垄断算力资源的怪象一定会被打破,算力的供给上会有更多的选择,infra上对于切换算力栈的支持也做会更好。也就是说,算力真正变得commoditized。而到那个时候,算力本身依然不会是大模型公司的首要问题,专有数据、应用场景、用户认知等等这些才会是护城河。