是什么导致了LLM中的不可预测性？

浮点数的有限精度（例如float16、bfloat16）产生舍入误差，这些误差在穿过Transformer层时可能被指数级放大。

这对生产AI系统有什么影响？

相同的查询在不同硬件上或重复运行时可能给出不同的答案，这会危及医疗或金融等关键应用中的可靠性和可重现性。

ArXiv：LLM中的数值不稳定性——浮点错误如何在Transformer中制造混乱

为什么相同的提示给出不同的答案？

每位大型语言模型的用户都注意到过这种现象：对同一模型提出相同的问题，有时会得到不同的答案。这种行为的一部分可以用有意的随机性（温度参数）来解释，但研究人员Chashi Mahiul Islam、Alan Villarreal和Mao Nishino展示了一个更深层的解释——Transformer架构本身固有的数值不稳定性。

浮点算术——计算机用于以有限精度表示十进制数的系统——不可避免地引入舍入误差。他们的研究追踪了这些误差如何在穿过Transformer架构的各层时「传播、放大或消减」。

三种行为模式

该研究在Transformer的早期层中识别出「雪崩效应」，其中小扰动导致二元结果——要么迅速放大，要么完全被抑制。这创造了三种不同的模式：

稳定模式在扰动低于依赖输入的阈值时出现——误差消失，模型给出一致的输出。混乱模式在舍入误差占主导并驱动输出发散时出现。信号主导模式是输入中的实际变化超越数值噪声的情况。

对AI行业的实际影响

这些「普遍的、依赖规模的混乱模式」出现在多个数据集和架构中，这意味着这个问题并非特定于某个模型或制造商。

对于生产系统——尤其是那些集成在智能体工作流中、LLM在链中做决策的系统——这有具体的后果。相同的代码在不同硬件（GPU vs. TPU vs. CPU）上可能产生不同的输出，不是因为设计如此，而是因为浮点运算的实现方式不同。这危及了在医疗或金融等受监管行业中AI系统的可重现性、测试和认证。

ArXiv：LLM中的数值不稳定性——浮点错误如何在Transformer中制造混乱

为什么相同的提示给出不同的答案？

三种行为模式

对AI行业的实际影响

来源

相关新闻