人工智能幻觉越来越严重，并将继续下去_RDLINK研发家YanFaJia

首页学术会议论文辅导出版支持

人工智能幻觉越来越严重，并将继续下去

研发家 | 2025-05-13 21

人工智能来自美国OpenAI和谷歌等科技公司(AI)在过去的几个月里，聊天机器人一直在进行所谓的推理升级——理想情况下，它们会更好地为每个人提供值得信赖的答案。但最近的测试表明，它们有时比以前的模型更糟。聊天机器人的错误被称为“幻觉”，自诞生以来就是一个问题，现在看来，你可能永远无法摆脱它们。

幻觉是一种大型的语言模型(LLM)一些类型错误的总称是为Open人工智能的ChatGPT或谷歌的Gemini提供支持。他们有时会把错误的信息作为真实的信息来呈现。幻觉也意味着人工智能生成的答案是正确的，但实际上与问题无关，或者在许多方面没有遵循指示。

Open人工智能的一份技术报告评估了其最新的LLM，显示其今年4月发布的O3和O4-mini模型的幻觉率明显高于2024年底发布的O1模型。例如，在总结人类公共事实时，O3有33%的时间，O4-mini有48%的时间产生幻觉。相比之下，O1的幻觉率是16%。

这个问题不仅限于OpenAI。根据美国Vectara公司发布的幻觉率评估排名，一些“推理”模型——包括中国DepSeek公司开发的DepSek- 与之前的开发模型相比，R1模型的幻觉率增加了两位数。该模型在响应前通过多个步骤显示推理过程。

Open人工智能表示，推理过程本身不应该受到批评。Open人工智能的一位发言人说：“幻觉在推理模型中并不自然更常见，我们正在努力降低O3和O4-mini中更高的幻觉率。”

但由于幻觉的出现，LLM的一些潜在应用程序可能会失败。一个不断解释错误并需要事实验证的模型不是一个有用的研究助理;一个引用虚构案例的律师助理机器人会给律师带来麻烦

人工智能公司最初声称，这个问题将随着时间的推移而得到解决。事实上，一开始，模型幻觉通常会随着更新而减少。但最近版本的高幻觉率使这种说法复杂化，无论推理本身是否错误。

Vectara的排名是根据模型在总结给出的文档时的事实一致性来排名的。Vectara的排名Forrest Sheng Bao说，这表明“推理模型和非推理模型的幻觉率几乎相同”，至少对Open人工智能和谷歌系统来说。Bao说，就排名的目的而言，具体的幻觉率数并不像每个模型的整体排名那么重要。

然而，这个排名可能不是比较人工智能模型的最佳方式。一个问题，它混淆了不同类型的幻觉。Vectara团队指出，虽然DepSeek-R1模型的幻觉率为14.3%，但大部分都是“好”的：这些答案在逻辑判断或事实支持下是合理的，但不会在需要总结的原始文本中。

华盛顿大学的Emily Bender说，这个排名的另一个问题是，基于文本总结的测试“不能解释使用LLM在其他任务后犯错误的可能性”。她承认，排名的结果可能不是判断该技术的最佳方法，因为LLM并不是专门为总结文本而设计的。

美国普林斯顿大学的Arvind 娜娜说，问题不仅仅是幻觉。模型有时会犯其他错误，比如使用不可靠的来源或过时的信息。简单地向人工智能投入更多的训练数据和算率并不一定有帮助。

因此，我们可能不得不与容易出错的人工智能并存。 Narayanan说，在某些情况下，最好只使用这些模型来实现目标。在事实验证方面，人工智能的答案仍然比自己的研究要快。但是bender说，最好的方法可能是完全避免依靠人工智能聊天机器人提供事实信息。

赞一个

打开微信扫一扫

版权及免责声明：本网站所有文章除标明原创外，均来自网络。登载本文的目的为传播行业信息，内容仅供参考，如有侵权请联系删除。文章版权归原作者及原出处所有。本网拥有对此声明的最终解释权

更多服务

热门标签