Why language models hallucinate(为什么语言模型会出现幻觉)

本文译自 OpenAI 博客:https://openai.com/index/why-language-models-hallucinate/

Language models hallucinate because standard training and evaluation procedures reward guessing over acknowledging uncertainty.

大模型会产生幻觉,是因为标准训练和评估流程鼓励模型进行猜测而非承认不确定性。更通俗易懂的说法是,在对模型进行训练和评估时,我们总是鼓励模型去猜测一个回答,而不是让模型承认自己不知道正确答案。

What are hallucinations?(什么是幻觉?)

幻觉是大模型生成的合理但错误的回答。假如我们问模型我们的生日时(模型肯定不知道正确答案),模型会一本正经地给出一个错误日期,而不是承认自己不知道。

Teaching to the test(应试教育)

模型出现幻觉的部分原因是目前评估模型的方法有缺陷,鼓励模型去猜答案。虽然评估本身并不直接导致幻觉,但是大多数评估模型性能的方式,都是在鼓励模型猜测答案,而不是诚实地表达不确定性。

假如现在有一个多项选择题,如果模型不知道答案但胡乱猜测,有几率能够恰巧猜到正确答案;但是如果模型承认自己不知道答案,将其留空,正确率一定是 0。所以仅通过回答准确率来评估模型时,模型在遇到不会的问题时就会被鼓励猜一个答案而不是说“我不知道”。

再举一个例子,假设模型被问到某人的生日,但它实际不知道。如果它决定随机猜一个日期,那么它有 365 分之一的几率是正确的,而说“我不知道”的正确概率一定是 0。在有着数千个测试问题的评估中,进行猜测的模型最终得分看起来比承认不确定性的模型更高,表现更好。

对于只有一个“正确答案”的问题,可以考虑三类回答:准确回答、错误和弃权,回答弃权的模型不会出现蒙对答案的风险。事实上,模型回答错误比弃权更严重,我们希望模型在不确定正确答案时指出不确定性或要求澄清,而不是提供可能不正确的看起来可靠的信息。

Metric gpt-5-thinking-mini OpenAI o4-mini
Abstention rate (no specific answer is given) 52% 1%
Accuracy rate (right answer, higher is better) 22% 24%
Error rate (wrong answer, lower is better) 26% 75%
Total 100% 100%

从上表中可以看出,在准确性方面,较旧的 OpenAI o4-mini 模型表现稍好一些。然而,它的错误率(即幻觉率)明显更高。在不确定时进行战略性猜测可以提高准确性,但会增加错误和幻觉。

综上所述,仅以准确性为目标的评估方法目前占据主导地位,鼓励开发人员构建猜测而不是退缩(承认不确定性)的模型。这就是为什么即使模型变得更加先进,它们仍然会出现幻觉,自信地给出错误的答案而不是承认不确定性的原因之一。

A better way to grade evaluations(对评估进行评分的更好方法)

有一个直接的解决方法:对确信的错误答案施加比不确定回答更重的惩罚,并对恰当表达不确定性的回答给予部分分数。这个想法并不新鲜。一些标准化考试长期采用对错误答案扣分或对留空题目给部分分数的机制,以遏制盲目猜测。多个研究团队也在探索将不确定性和校准程度纳入考量的评估体系。

我们的观点有所不同。仅仅在现有体系旁额外添加几个不确定性感知测试是远远不够的。需要更新被广泛使用的基于准确率的评估体系,使其评分机制能够抑制猜测行为。如果主流评估体系持续奖励侥幸猜对的行为,模型就会不断学习猜测策略。修正评分体系可以拓宽减幻觉技术的应用范围——无论是新研发的技术还是既往研究中的技术都将因此受益。

How hallucinations originate from next-word prediction(幻觉是如何产生于下一个词预测的)

为什么像ChatGPT这样的AI有时候会一本正经地“胡说八道”,犯一些非常具体的事实错误?比如把不存在的事件说得有鼻子有眼,而不是犯简单的拼写或语法错误?这其实和它的学习方式有关。

AI的学习过程与传统机器学习问题不同,这里的每个 token 都没有附加”正确/错误”标签。你可以把AI的学习过程想象成一个巨大的“猜词游戏”。它通过阅读海量互联网文本,学习在一句话中预测下一个最可能出现的词。在这个过程中,它看到的全是写得好、流畅的句子,但没有人告诉它哪些事实是错的——就像只让你看无数篇新闻,却不给你答案,全靠自己总结规律。

所以,AI就成了一位极其擅长模仿语言模式和风格的大师。对于有固定规则的东西,比如拼写、括号匹配、常见语法,因为它反复看到一致的规律,所以掌握得非常好,几乎不犯错。

但对于那些没有规律、随机性强的具体事实——比如“爱因斯坦的猫是哪天出生的?”——就完全不同了。这种信息在数据中要么很少出现,要么前后矛盾,AI无法从中找到一个可靠的规律来学习。它只能根据概率“猜”一个看似合理的答案,这就导致了幻觉(即事实性错误)。

这就像:如果让一个算法看几百万张标有“猫”或“狗”的照片,它能学会准确区分。但如果你非要让它通过照片猜每只宠物的生日,它永远也猜不准,因为生日和长相之间没有必然联系。

所以说,这种“事实性幻觉”是AI基础学习方式带来的天然局限。理想情况下,应该在预训练之后通过后训练(比如人类反馈微调)来减少错误,但目前为止,还没有完美解决这个问题。

Conclusions(结论)

  • 误解1:通过提升准确率即可消除幻觉,因为达到100%准确率的模型从不产生幻觉。

  • 解释:准确率永远无法达到100%,因为无论模型规模大小、搜索与推理能力如何提升,有些现实问题本质上就是无解的。

  • 误解2:幻觉是不可避免的。

  • 解释:并不是,因为模型在不确定时可以选择弃权。

  • 误解3:避免幻觉需要一定程度的智能,而这只有通过更大的模型才能实现。

  • 解释:小型模型反而更容易认知自身局限。例如当被要求回答毛利语问题时,完全不懂毛利语的小型模型可以直接回答”我不知道”,而掌握部分毛利语的模型则需评估自身置信度。实现”校准”所需的计算量远低于达到准确率所需的资源。

  • 误解4:幻觉是现代语言模型中的一个神秘故障。

  • 解释:我们理解幻觉产生的原因,以及其如何在评估中被鼓励的统计机制。

  • 误解5:要衡量幻觉率,我们只需要一个好的幻觉评估方法。

  • 解释:虽然已有幻觉评估标准发布,但它在面对数百个惩罚弃权、奖励猜测的传统准确率评估体系时的影响力有限。相反,所有核心评估指标都必须重新设计,以鼓励对不确定性的表达。


Why language models hallucinate(为什么语言模型会出现幻觉)
https://cosmoliu2002.github.io/posts/llm-hallucinate-reason/
作者
LiuYu
发布于
2025年9月6日
许可协议