我发现中文圈没人提这个⬇️ 刚刚英伟达完成了一件很多人以为

即刻App年轻人的同好社区

下载

Max_means_best

2月前

我发现中文圈没人提这个⬇️

刚刚英伟达完成了一件很多人以为做不了的事。

他们用4bit精度，在10万亿tokens上，预训练了一个12B参数的大语言模型。

其实预训练方向一直陷入停滞很久了，过去几年，预训练基本被16bit和8bit统治。

你可以在推理阶段做4bit量化，可以省显存，可以让模型跑得更便宜。

但真拿4bit去做预训练，就是另一回事。

训练不是把模型压小然后跑起来。

训练是每一步都要算梯度，每一步都要更新参数，每一步都可能被数值误差放大。

精度降太狠，loss会飘，梯度会偏，它会变得不稳定，自己“幻觉”出错误的计算，最终崩溃。

但英伟达证明了“不可能”只是一个数学问题。

他们使用了一种名为 NVFP4 的新格式，与标准结构不同，NVFP4 采用“微缩放”。

它不是粗暴地把所有数字砍成4bit，而是把数字切成很小的block，给每一小块单独配scale。

你可以理解成，以前是一把尺子量一整间屋子，现在是每一小格都有自己的尺子。

其结果是一次彻底的范式转变：

性能提升 2× 到 3×
内存使用减少 50%
最重要的是智能几乎无损

研究人员将该 4 位模型与庞大的 8 位基线进行了比较。曲线完全一致。

在 MMLU、GSM8K 和编程基准测试中，“微小”4 位版本的表现与更昂贵的模型相差不到 0.1%。

当然，它不是整个模型从头到尾全部纯4bit。

embedding、norm、attention相关部分、optimizer states这些地方，仍然有高精度保留。

但最重的那部分linear GEMM，已经可以被NVFP4接管，而且模型没有炸。

训练一个前沿模型过去需要数万块 GPU 和数月时间。NVIDIA 刚刚证明我们可以用一半的硬件和极少的电力得到相同的结果。

这对整个行业的意义很简单：

大模型训练不会因为算力贵就停下来。
英伟达正在把那张训练账单，一刀一刀往下切。

这会是一个非常颠覆的事情。

Paper：arxiv.org

46 68

来自圈子

人工智能讨论组

476412人已经加入