近日,一个基准测试平台显示,由ChatGPT研发团队开发的人工智能(AI)模型o3被选为解决多个领域科学问题的最佳人工智能工具。
据《自然》报道,艾伦人工智能研究所(Ai2)开发的Sciarena平台根据23个大型语言模型对科学问题的答案进行了排名。102名研究人员根据答案的质量投票。经过1.3万多次投票,美国Open人工智能公司开发的O3模型在自然科学、医疗卫生、工程和人文社会科学领域排名第一。
中国深度求索公司的DeepSeek-R1模型在自然科学问题的回答中排名第二,在工程领域排名第四。谷歌的Gemini-2.5-Pro模型在自然科学问题的回答中排名第三,在工程和医疗卫生领域排名第五。
Armann研究人员Ai2 Cohan表示,用户对o3模型的偏好可能是因为该模型在引用文献时经常提供大量细节,并能在技术上做出详细的回应。但他指出,目前还不清楚为什么不同的模型会有所不同。不同的培训数据和模型优化目标可以在一定程度上解释这种差异。
SciArena是最新开发的评估AI模型在特定任务中表现的平台之一,也是首批利用众包反馈模型在科学任务中表现排名的平台之一。澳大利亚国立大学的Rahul “Sciarena促使人们仔细评估大型语言模型辅助的文献相关任务。”
为了对这23个大型语言模型进行排名,Sciarena平台允许研究人员提交科学问题。然后,两个随机选择模型作出答案,这些答案将引用另一个AI研究工具Semanticai2开发以Scholar的文献为支撑。未来,用户会投票决定哪种模型的答案更好,两种模型的答案相当,或者两种模型的表现都很差。
目前,Sciarena平台已向公众开放,客户可以免费提出研究问题。所有用户都可以收到两个模型的答案,并投票表现,但只有经过验证并同意相关条款的用户才能投票。该公司表示,它将经常更新这个列表。
澳大利亚悉尼大学的Jonathan Kummerfeld表示,这将有助于研究人员及时掌握他们所在领域的最新文献,并“找到他们可能错过的研究成果”。他补充说,该平台也可能促进人工智能模型的创新,因为它提供了一种透明的方法来衡量进展。
然而,该平台存在一个潜在的问题,即对用户参与的依赖。在这方面,Cohan表示,该平台是免费的,包含了最先进的模型,这是对用户的一种鼓励。
“阅读大型语言模型产生的论文摘要并不能取代阅读论文本身。”因为它可能与所引用的论文有矛盾,可能误解术语,也可能无法准确地回答问题。
赞一个