人工智能幻觉越来越严重,并将继续下去

研发家 | 2025-05-13 21

人工智能来自美国OpenAI和谷歌等科技公司(AI)在过去的几个月里,聊天机器人一直在进行所谓的推理升级——理想情况下,它们会更好地为每个人提供值得信赖的答案。但最近的测试表明,它们有时比以前的模型更糟。聊天机器人的错误被称为“幻觉”,自诞生以来就是一个问题,现在看来,你可能永远无法摆脱它们。

幻觉是一种大型的语言模型(LLM)一些类型错误的总称是为Open人工智能的ChatGPT或谷歌的Gemini提供支持。他们有时会把错误的信息作为真实的信息来呈现。幻觉也意味着人工智能生成的答案是正确的,但实际上与问题无关,或者在许多方面没有遵循指示。

Open人工智能的一份技术报告评估了其最新的LLM,显示其今年4月发布的O3和O4-mini模型的幻觉率明显高于2024年底发布的O1模型。例如,在总结人类公共事实时,O3有33%的时间,O4-mini有48%的时间产生幻觉。相比之下,O1的幻觉率是16%。

这个问题不仅限于OpenAI。根据美国Vectara公司发布的幻觉率评估排名,一些“推理”模型——包括中国DepSeek公司开发的DepSek- 与之前的开发模型相比,R1模型的幻觉率增加了两位数。该模型在响应前通过多个步骤显示推理过程。

Open人工智能表示,推理过程本身不应该受到批评。Open人工智能的一位发言人说:“幻觉在推理模型中并不自然更常见,我们正在努力降低O3和O4-mini中更高的幻觉率。”

但由于幻觉的出现,LLM的一些潜在应用程序可能会失败。一个不断解释错误并需要事实验证的模型不是一个有用的研究助理;一个引用虚构案例的律师助理机器人会给律师带来麻烦

人工智能公司最初声称,这个问题将随着时间的推移而得到解决。事实上,一开始,模型幻觉通常会随着更新而减少。但最近版本的高幻觉率使这种说法复杂化,无论推理本身是否错误。

Vectara的排名是根据模型在总结给出的文档时的事实一致性来排名的。Vectara的排名Forrest Sheng Bao说,这表明“推理模型和非推理模型的幻觉率几乎相同”,至少对Open人工智能和谷歌系统来说。Bao说,就排名的目的而言,具体的幻觉率数并不像每个模型的整体排名那么重要。

然而,这个排名可能不是比较人工智能模型的最佳方式。一个问题,它混淆了不同类型的幻觉。Vectara团队指出,虽然DepSeek-R1模型的幻觉率为14.3%,但大部分都是“好”的:这些答案在逻辑判断或事实支持下是合理的,但不会在需要总结的原始文本中。

华盛顿大学的Emily Bender说,这个排名的另一个问题是,基于文本总结的测试“不能解释使用LLM在其他任务后犯错误的可能性”。她承认,排名的结果可能不是判断该技术的最佳方法,因为LLM并不是专门为总结文本而设计的。

美国普林斯顿大学的Arvind 娜娜说,问题不仅仅是幻觉。模型有时会犯其他错误,比如使用不可靠的来源或过时的信息。简单地向人工智能投入更多的训练数据和算率并不一定有帮助。

因此,我们可能不得不与容易出错的人工智能并存。 Narayanan说,在某些情况下,最好只使用这些模型来实现目标。在事实验证方面,人工智能的答案仍然比自己的研究要快。但是bender说,最好的方法可能是完全避免依靠人工智能聊天机器人提供事实信息。

赞一个

分享:
打开微信扫一扫
28
版权及免责声明:本网站所有文章除标明原创外,均来自网络。登载本文的目的为传播行业信息,内容仅供参考,如有侵权请联系删除。文章版权归原作者及原出处所有。本网拥有对此声明的最终解释权
招商合作
请您完善以下信息,我们会尽快与您联系!
论文投稿
参加会议
合作办会
期刊合作
论文辅导
科研绘图
论文翻译润色
论文查重
其他
提交
专家招募
个人信息
联系信息
提交
在线客服
商务合作
专家招募
常见问题
手机端
扫描二维码
与学术大咖共探知识边界
出版无忧
投稿无忧
翻译服务
润色服务
自助查重
排版校对
科研绘图