OpenAI 罕发论文:揭开 AI 幻觉的神秘面纱

日期:2025-09-08 14:57:36 / 人气:10


在人工智能领域,有一个问题堪称“臭名昭著”,它并非代码崩溃这类技术故障,而是 AI 的“幻觉”——模型会自信满满地编造事实,让用户难辨真假。这一根本性难题,如同横亘在人们面前的大山,严重阻碍着我们对 AI 建立完全的信任。

如今,大模型出现幻觉几乎已成为众人皆知的常识,这使得每一个严谨使用大模型的人在使用时都不得不小心翼翼。OpenAI 也明确指出:“ChatGPT 同样会产生幻觉。虽然 GPT - 5 在执行推理任务时幻觉现象明显减少,但幻觉问题依旧存在。可以说,幻觉是所有大型语言模型都面临的重大根本性挑战。”

尽管学术界已经提出了形形色色用于降低模型幻觉的方法,但截至目前,还没有一种方法能够彻底“根治”这一顽疾。那么,大模型究竟为何会出现幻觉呢?近日,OpenAI 罕见地发表了一篇论文,为我们系统性地揭示了幻觉产生的根源。

一、幻觉的定义与常见表现

OpenAI 对幻觉给出了一个简洁的定义:模型自信地生成不真实答案的情况。哪怕是看似简单的问题,幻觉也可能以令人意想不到的方式出现。OpenAI 举例说明,当向不同的常用聊天机器人询问论文一作 Adam Tauman Kalai 的博士论文标题时,这些机器人自信地给出了三个不同的答案,然而,没有一个是正确的。当询问他的生日时,同样得到了三个不同的错误日期。

二、幻觉持续存在的原因

(一)评估方法的激励偏差

幻觉问题之所以持续存在,部分原因在于当前的评估方法设置了错误的激励机制。虽然评估本身并不会直接导致幻觉的产生,但大多数评估模型性能的方式会鼓励模型进行猜测,而不是诚实地面对不确定性。

我们可以把这种评估方式想象成一场多项选择题测试。在测试中,如果不知道答案而随意猜测,有可能会幸运地猜对;但如果留空,则必定得零分。同样,当模型仅依据准确度(即完全答对问题的百分比)进行评分时,它们会受到鼓励去进行猜测,而不是承认“我不知道”。

举个例子,假设一个语言模型被问及某人的生日,但它并不知晓。如果它猜测“9 月 10 日”,那么它有 1/365 的概率猜对;而说“我不知道”则必定得零分。在数千道测试题中,猜测型模型最终在记分牌上的表现往往会优于谨慎且承认不确定的模型。

对于只有一个“正确答案”的问题,通常可以分为三类答案:准确答案、错误答案以及模型不愿冒险猜测的弃权答案。OpenAI 表示,弃权答案是谦逊(humility)指标的一部分,而谦逊是 OpenAI 的核心价值观之一。

大多数分数指标会根据准确度对模型进行优先排序,但错误答案比弃权答案更糟糕。OpenAI 的模型规范指出,指出不确定性或要求澄清会是更好的做法,而不是自信地提供可能不正确的信息。

以 GPT5 系统卡中的 SimpleQA 评估为例,在准确度方面,更早期的 OpenAI o4 - mini 模型表现略好。然而,其错误率(即幻觉率)明显较高。在不确定的情况下进行策略性猜测可以提高准确度,但同时也会增加错误和幻觉。在对数十次评估的结果进行平均时,大多数基准测试会剔除准确度指标,但这会导致对错之间出现错误的二分法。

在像 SimpleQA 这样的简单评估中,一些模型的准确度接近 100%,从而看似消除了幻觉。但在更具挑战性的评估和实际使用中,由于各种原因(例如信息不可用、小型模型的思维能力有限或需要澄清的歧义),有些问题的答案无法确定,准确度会固定在 100%以下。尽管如此,仅以准确度为衡量标准的评估指标仍然在排行榜和模型卡中占据主导地位,这就会鼓励开发者构建能够猜测而不是退缩的模型。也正因为此,即使模型变得更加先进,它们仍然会产生幻觉,原因之一便是它们倾向于自信地给出错误答案,而不是承认不确定。

(二)更好的评估方法探索

针对上述问题,OpenAI 指出了一个简单的解决办法:对自信错误(confidential error)的惩罚力度要大于对不确定性的惩罚力度,并对恰当表达不确定性的行为给予部分加分。

这个想法并非全新,一些标准化测试长期以来一直采用对错误答案进行负面评分或对留空问题给予部分加分的方法来阻止盲猜。一些研究团队也探索了考虑不确定性和校准的评估方法。但 OpenAI 表示,仅仅增加一些新的不确定性感知测试是不够的。广泛使用的、基于准确度的评估方法需要更新,使其评分能够阻止猜测。

如果主要评估指标依然继续为模型幸运的猜测给予奖励,模型就会继续学习猜测。修改评估指标可以扩大降低幻觉技术的采用范围,包括新开发的和先前研究的技术。

三、幻觉从下一个词预测中产生的原因

前面我们已经探讨了为什么幻觉如此难以摆脱,但这些高度具体的事实性错误究竟从何而来呢?毕竟,大型预训练模型很少出现其他类型的错误,例如拼写错误和括号不匹配。

OpenAI 表示,区别必定在于数据中存在哪些模式。语言模型首先通过预训练进行学习,这是一个预测海量文本中下一个词的过程。与传统的机器学习问题不同,每个语句没有“真/假”标签。该模型只看到流畅语言的正面示例,并且必须去近似整体分布。

当没有任何被标注为无效的示例时,区分有效语句和无效语句会更加困难。但即使有标签,一些错误也是不可避免的。

为了理解其中的原因,我们可以考虑一个更简单的类比。在图像识别中,如果数百万张猫狗照片被标记为“猫”或“狗”,算法可以学会可靠地对它们进行分类。但想象一下,如果用宠物的生日来标记每张宠物照片。由于生日本质上是随机的,无论算法多么先进,这项任务总是会产生错误。

同样的原则也适用于预训练。拼写和括号遵循一致的模式,因此这些错误会随着规模的扩大而消失。但像宠物的生日这样任意的低频事实,无法仅凭模式预测,因此会导致幻觉。

OpenAI 的分析解释了哪些类型的幻觉会由下一个词预测产生。理想情况下,预训练后的后续阶段应该能够消除这些幻觉,但由于上一节中描述的原因,这并未完全实现。

四、总结与启示

OpenAI 表示,希望本文中的统计学视角能够阐明幻觉的本质,并驳斥一些常见的误解:

  • 有人宣称幻觉可以通过提高准确度来消除,因为 100%准确的模型永远不会产生幻觉。但研究发现,准确度永远不会达到 100%,因为无论模型规模、搜索和推理能力如何,有些现实世界的问题本质上是无法回答的。
  • 有人宣称幻觉是不可避免的。但研究发现,幻觉并非不可避免,因为语言模型在不确定时可以放弃回答。
  • 有人宣称避免幻觉需要一定程度的智能,而这只有大型模型才能实现。但研究发现,小型模型更容易了解自身的局限性。例如,当被要求回答毛利语问题时,一个不懂毛利语的小型模型可以直接回答“我不知道”,而一个认识一些毛利语的模型则必须确定其置信度。正如论文中所讨论的,“校准”所需的计算量远小于保持准确。
  • 有人宣称幻觉是现代语言模型的一个神秘缺陷。但研究发现,我们可以理解幻觉产生以及在评估中获得奖励的统计学机制。
  • 有人宣称要测量幻觉,我们只需要一个好的幻觉评估。但研究发现,已有研究者发表了一些幻觉评估。然而,一个好的幻觉评估与数百种传统的基于准确度的评估相比几乎没有效果,这些评估会惩罚谦逊并奖励猜测。相反,所有主要的评估指标都需要重新设计,以奖励不确定性的表达。

OpenAI 表示:“我们最新的模型幻觉率更低,并且我们将继续努力,进一步降低语言模型输出的置信错误率。”

此外,据 TechCrunch 报道,OpenAI 正在重组其模型行为(Model Behavior)团队,这是一支规模虽小但颇具影响力的研究人员团队,他们决定着该公司的 AI 模型与人互动的方式。现在,该团队将向 OpenAI 的后期训练主管 Max Schwarzer 汇报。而该团队的创始负责人 Joanne Jang 则将在公司启动一个新项目,名为 oai Labs。据她的推文介绍:“这是一个以研究为导向的团队,专注于发明和设计人们与 AI 协作的新界面原型。”

作者:杏鑫娱乐




现在致电 8888910 OR 查看更多联系方式 →

COPYRIGHT 杏鑫娱乐 版权所有