这可能是今年最重要的AI新闻，但中文互联网还没什么人聊。

即刻App年轻人的同好社区

下载

数字游民Jarod

5月前

这可能是今年最重要的AI新闻，但中文互联网还没什么人聊。

昨天，一家成立不到三年的多伦多芯片公司扔下了一颗核弹。他们不是做大模型的，不是做应用的，而是做了一件听起来很复古的事：把AI模型直接刻在芯片里。

这家公司叫 Taalas。他们做的芯片 HC1，运行 Llama 3.1 8B的速度是 17000 tokens/秒。作为对比，目前业界最快的 GPU 也就 2000 左右。十倍差距。

但这还不是最疯狂的。最疯狂的是，这块芯片只能跑这一个模型。不能换，不能改，不能升级。你买回家，它就永远只会做这一件事：以光速运行 Llama 3.1 8B。

Taalas 的赌注很简单：在这个所有人都追求灵活性的时代，他们选择了绝对的不灵活，换取绝对的效率。

要说清楚这件事为什么重要，得先理解过去几十年芯片发展的主线。从 CPU 到 GPU，再到各种 AI 加速器，所有人都在做同一件事：造一个通用的计算平台，然后用软件在上面跑各种模型。

这条路走到今天，遇到了一个硬边界。模型越来越大，内存带宽成了瓶颈。你把几百亿参数从显存搬到计算单元，这个过程消耗的能量和时间，已经比计算本身还要多了。

Taalas 的思路是：既然你每次都算同样的东西，为什么还要搬来搬去？直接把权重存在晶体管里不行吗？

他们真的这么做了。HC1 芯片里没有显存，没有 HBM，没有复杂的缓存层级。模型的每一个权重都对应着芯片上的特定晶体管，矩阵乘法通过电路的物理连接直接完成。你输入一个 token，电流流过这些预先设计好的路径，输出就是下一个 token 的预测。

这就像录音带和现场演奏的区别。传统芯片是每次都要重新演奏，Taalas 是把演奏录在磁带里，播放就行了。

这种设计带来了几个惊人的结果。

第一是速度。17000 tokens/秒意味着什么？你几乎感受不到延迟。不是"很快"，是"瞬间"。有测试者说，按回车的瞬间，答案就已经完整出现在屏幕上，甚至看起来像是预先准备好的。

第二是功耗。传统 GPU 运行 AI 推理需要液冷，一个机柜动辄几十千瓦。Taalas 的芯片只要空气冷却，十张卡加起来才 2.5 千瓦。他们号称能效是 GPU 的十倍。

第三是成本。制造这样的芯片，他们说是传统方案的十分之一到二十分之一。

但代价也是真实的。这块芯片出厂那一刻，它的命运就已经注定。Llama 3.1 8B，就是这个芯片这辈子唯一能做的事。如果明年 Meta 发布了 Llama 4，这块芯片就变成了电子垃圾。如果你发现这个模型有偏见，或者在你的应用场景里效果不好，你不能微调它，不能换别的模型，只能再买一块新芯片。

Taalas 的解决方案是：把定制芯片的周期从一年压缩到两个月。他们和台积电合作，只改变两层金属掩膜，就能为不同的模型生产新芯片。他们声称训练一个模型要花十亿美元，而定制一块这样的芯片只要花一千万。

说到这个团队的背景，确实豪华得有点过分。CEO Ljubisa Bajic 是 Tenstorrent 的创始人，之前在 AMD 和 NVIDIA 都做过架构师。COO Lejla Bajic 是他的妻子，同样是 AMD 和 Tenstorrent 的资深工程师。CTO Drago Ignjatovic 是前 AMD 的 ASIC 设计总监。这三个人加起来，可能设计了过去十年里你用过的一些最重要的芯片。

2022 年，当 Jim Keller 加入 Tenstorrent 并接管公司后，Ljubisa 选择了离开。六个月后，他创立了 Taalas。显然，他和 Keller 对 AI 芯片的未来有不同的看法。Keller 想做一个通用的、可编程的、软件友好的平台，而 Ljubisa 走向了另一个极端：彻底的专用化。

他们刚刚完成了 1.69 亿美元的融资，总融资额 2.19 亿。投资人里有个名字值得注意：Pierre Lamond。这位老爷子是 Fairchild Semiconductor 的元老，红杉资本的前合伙人，被公认为半导体行业的奠基人之一。这样的大佬背书，说明这件事至少在技术逻辑上是成立的。

现在的问题是：市场会买单吗？

Taalas 需要找到那些愿意为了效率和成本，牺牲灵活性的场景。比如语音助手，需要毫秒级响应，而且模型不需要经常换。比如数据标注，需要处理海量文本，用的是固定模型。比如一些垂直领域的专用模型，训练好了就不动了。

但也有人不看好。芯片制造是有污染的，如果每两年就要换一批芯片，这比 GPU 的更新换代更频繁，环保问题怎么算？还有人质疑，AI 模型进化这么快，两个月流片时间还是太长，等你做出来，模型可能已经过时了。

更根本的问题是：当 OpenAI、Google、Anthropic 都在拼命证明他们的新模型比旧模型好得多的时候，谁会愿意把自己锁死在一个固定的模型上？

Taalas 的反驳是：模型迭代的周期正在变长，人们开始依恋特定的版本。OpenAI 把用户从 GPT-4.5 迁移到 GPT-5 的时候，很多人抱怨新版本太谄媚了。也许未来我们会像对待手机型号一样对待 AI 模型：iPhone 15 出来后，还是有人用 iPhone 14，因为它们各有各的好。

我不知道 Taalas 会不会成功。这可能是一家改变行业的公司，也可能是一个技术史上有趣的注脚。

感兴趣的朋友可以去他们的demo站点体验一下什么是光速级别的inference：

chatjimmy.ai

315 46130

来自圈子

AI探索站

115152人已经加入