人工智能来自美国OpenAI和谷歌等科技公司(AI)在过去的几个月里,聊天机器人一直在进行所谓的推理升级——理想情况下,它们会更好地为每个人提供值得信赖的答案。但最近的测试表明,它们有时比以前的模型更糟。聊天机器人的错误被称为“幻觉”,自诞生以来就是一个问题,现在看来,你可能永远无法摆脱它们。
幻觉是一种大型的语言模型(LLM)一些类型错误的总称是为Open人工智能的ChatGPT或谷歌的Gemini提供支持。他们有时会把错误的信息作为真实的信息来呈现。幻觉也意味着人工智能生成的答案是正确的,但实际上与问题无关,或者在许多方面没有遵循指示。
Open人工智能的一份技术报告评估了其最新的LLM,显示其今年4月发布的O3和O4-mini模型的幻觉率明显高于2024年底发布的O1模型。例如,在总结人类公共事实时,O3有33%的时间,O4-mini有48%的时间产生幻觉。相比之下,O1的幻觉率是16%。
这个问题不仅限于OpenAI。根据美国Vectara公司发布的幻觉率评估排名,一些“推理”模型——包括中国DepSeek公司开发的DepSek- 与之前的开发模型相比,R1模型的幻觉率增加了两位数。该模型在响应前通过多个步骤显示推理过程。
Open人工智能表示,推理过程本身不应该受到批评。Open人工智能的一位发言人说:“幻觉在推理模型中并不自然更常见,我们正在努力降低O3和O4-mini中更高的幻觉率。”
但由于幻觉的出现,LLM的一些潜在应用程序可能会失败。一个不断解释错误并需要事实验证的模型不是一个有用的研究助理;一个引用虚构案例的律师助理机器人会给律师带来麻烦
人工智能公司最初声称,这个问题将随着时间的推移而得到解决。事实上,一开始,模型幻觉通常会随着更新而减少。但最近版本的高幻觉率使这种说法复杂化,无论推理本身是否错误。
Vectara的排名是根据模型在总结给出的文档时的事实一致性来排名的。Vectara的排名Forrest Sheng Bao说,这表明“推理模型和非推理模型的幻觉率几乎相同”,至少对Open人工智能和谷歌系统来说。Bao说,就排名的目的而言,具体的幻觉率数并不像每个模型的整体排名那么重要。
然而,这个排名可能不是比较人工智能模型的最佳方式。一个问题,它混淆了不同类型的幻觉。Vectara团队指出,虽然DepSeek-R1模型的幻觉率为14.3%,但大部分都是“好”的:这些答案在逻辑判断或事实支持下是合理的,但不会在需要总结的原始文本中。
华盛顿大学的Emily Bender说,这个排名的另一个问题是,基于文本总结的测试“不能解释使用LLM在其他任务后犯错误的可能性”。她承认,排名的结果可能不是判断该技术的最佳方法,因为LLM并不是专门为总结文本而设计的。
美国普林斯顿大学的Arvind 娜娜说,问题不仅仅是幻觉。模型有时会犯其他错误,比如使用不可靠的来源或过时的信息。简单地向人工智能投入更多的训练数据和算率并不一定有帮助。
因此,我们可能不得不与容易出错的人工智能并存。 Narayanan说,在某些情况下,最好只使用这些模型来实现目标。在事实验证方面,人工智能的答案仍然比自己的研究要快。但是bender说,最好的方法可能是完全避免依靠人工智能聊天机器人提供事实信息。
赞一个