几十万东说念主关怀,一发表即被行业大佬评为"这是很永劫刻以来最遑急的论文"。
哈佛、斯坦福、MIT 等团队的一项究诘标明:熟识的 token 越多,需要的精度就越高。
举例,Llama-3 在不同数据量下(圆形 8B、三角形 70B、星星 405B),跟着数据集大小的增多,估计最优的精度也会增多。

换句话即是,关于大范畴的熟识任务,低精度的量化可能不再弥散有用。
按照论断,对 Scaling Law 的盲从意味着咱们需要保抓更高精度,可是一直以来,东说念主们时时会聘用量化(将一语气值或多精度值调整为较低精度)来节俭估计资源。
一朝论断缔造,GPU 的贪图和功能可能也需要相应调整,因为传统上,GPU 的性能普及部分依赖于对低精度估计的优化。
正如艾伦 AI 究诘所科学家所指出的:
这是很永劫刻以来最遑急的论文。它用强有劲的笔据标明,咱们正在达到量化的极限。论文得出的论断对通盘这个词范畴以及 GPU 的改日有着庸碌的影响。

与此同期,究诘得出了两个遑急论断:
要是量化是在后熟识阶段进行的,那么更多的预熟识数据最终可能反而无益;
在高(BF16)和下一代(FP4)精度下进行预熟识可能都是次优的贪图聘用;
这也引来 OpenAI 职工大赞特赞:
将终点酷地看到若何 SOTA 量化决议(mxfp,Pw ≠ Pkv ≠ Pa 等)鼓励前沿;在我看来,将一半的估计预算用于一次大范畴开动以检查模子是否适用于大模子是值得的。

建议"精度感知" Scaling Laws
一上来,究诘就指出,现时扩张的焦点主要放在了模子范畴、数据量上,疏远了对精度的关怀。
而事实上,跟着模子进一步应用落地,低精度量化正在成为新的范式。
深度学习正朝着更低精度的见解发展。
现时的前沿模子(如 Llama-3 系列)在 BF16 中进行熟识,况且民众都在勇猛将预熟识范式滚动到 FP8,以致下一代硬件将复旧 FP4;
因此,究诘念念要搞清:
精度、参数和数据之间的衡量是什么?它们在预熟识和推理方面若何比拟?
具体而言,团队究诘了在预熟识和后熟识 ,跟着数据和参数的变化,精度对升天的影响若何变化。
同期,为了精准测量关联变化,团队有益建议了"精度感知(precision-aware)"的 Scaling Laws,以展望和优化不同精度下的话语模子熟识和推理。

先说论断。下图展示了两个主要的践诺完了:
在较低精度下熟识模子(举例 INT3 和 INT4)会导致较高的升天;
在推理时使用较低精度会导致性能下落;
具体而言,左侧图表展示了在不同精度下熟识模子的恶果。
其中纵轴暗示最终的考证升天(Val Loss),横轴暗示不同的模子范畴(Model Size),从 30M 到 220M 参数。不同的模式代表了不同的熟识精度,从 INT3 到 INT6,以及莫得后熟识量化(No PTQ)。
究诘发现,在较低精度下熟识模子(举例 INT3 和 INT4)会导致较高的升天,而跟着精度的提高,升天会减少;同期,跟着模子范畴的增多,升天也会减少。
另外,右侧图表展示了在不同精度下进行推理时的模子性能。
其中横轴暗示了推理时的权重精度(Final Val Loss)。
完了潜入,在推理时使用较低精度(举例 INT3 和 INT4)会导致性能下落,即升天的增多;而跟着精度的提高,升天会平缓减少,接近莫得进行后熟识量化的模子性能。

上述发现也证实了为什么 Llama-3 难以量化?
要知说念,Llama-3 发布后,它因"超 15T Token 数据上的超大范畴预熟识"而着名,不外东说念主们自后发现,Llama-3 低比特量化性能下落显贵。
这可能正如究诘提到的,模子在预熟识阶段看到的数据越多,对量化的敏锐性就越高。
与此同期,究诘还发现了:
后熟识量化(PTQ,即熟识完成后对模子进行量化)引起的性能退化跟着模子熟识数据量的增多而增多。
换句话说,在多数数据上熟识的模子,要是在推理时进行低精度的 PTQ,可能会导致性能显贵下落。

接下来,团队建议诈骗"精度感知" Scaling Laws 来展望模子在不同精度下的性能,并指出:
在较低精度下进行熟识不错减少模子的"有用参数数目(effective parameter count)",从而展望在低精度下熟识和后熟识量化产生的颠倒升天。
其中包含两个关键公式,它们组成了一个斡旋的表面框架,用于展望不同精度下熟识和推理的性能。
熟识后量化(PTQ)引起的升天退化展望公式:

研究熟识精度的模子升天展望公式:

斡旋预熟识与后熟识的精度展望
BTW,究诘最终将后熟识量化和预熟识量化的影响斡旋起来,以此末端:
展望在职何精度组合下的预熟识和后熟识升天
关联公式如下:

同期,为了考证展望的准确性,究诘对跳跃 465 次预熟识开动的数据进行拟合,并在高达 1.7 亿参数、熟识了高达 260 亿个 token 的模子上进行了考证。
并在进程中建议了以下几点建议:
需要斟酌精度与性能,在资源有限的情况下,不错研究使用较低的精度来熟识更大的模子;
需要斟酌精度与参数,在低精度下熟识时,不错研究增多模子的范畴(即参数数目),因为究诘标明这么作念可能是估计上最优的;
需要优化数据量,通过数据增强、聘用性数据采样等本领提高数据使用率,并在预熟识时应幸免使用过多的数据,罕见是在模子需要后期量化的情况下。
不外,这项究诘当今也存在一定局限性,比如作家自述使用了一个固定的模子架构来截止变量。
这意味着,关联完了可能不适用于经过架构调整的低精度熟识模子,因为架构的变化可能会影响模子对精度变化的敏锐性。

临了,有网友还念念得更远。建议一朝量化失败,还有 3 条路不错研究:
扩张数据中心
转向更小的专科模子
常识蒸馏

你奈何看?
论文:
https://arxiv.org/abs/2411.04330
参考不息:
[ 1 ] https://x.com/Tim_Dettmers/status/1856338240099221674
[ 2 ] https://x.com/Tanishq97836660/status/1856045600355352753开云官网切尔西赞助商