谁更擅长23个模型?解答科学问题的排名来了

研发家 | 2025-07-11 33

近日,一个基准测试平台显示,由ChatGPT研发团队开发的人工智能(AI)模型o3被选为解决多个领域科学问题的最佳人工智能工具。

据《自然》报道,艾伦人工智能研究所(Ai2)开发的Sciarena平台根据23个大型语言模型对科学问题的答案进行了排名。102名研究人员根据答案的质量投票。经过1.3万多次投票,美国Open人工智能公司开发的O3模型在自然科学、医疗卫生、工程和人文社会科学领域排名第一。

中国深度求索公司的DeepSeek-R1模型在自然科学问题的回答中排名第二,在工程领域排名第四。谷歌的Gemini-2.5-Pro模型在自然科学问题的回答中排名第三,在工程和医疗卫生领域排名第五。

Armann研究人员Ai2 Cohan表示,用户对o3模型的偏好可能是因为该模型在引用文献时经常提供大量细节,并能在技术上做出详细的回应。但他指出,目前还不清楚为什么不同的模型会有所不同。不同的培训数据和模型优化目标可以在一定程度上解释这种差异。

SciArena是最新开发的评估AI模型在特定任务中表现的平台之一,也是首批利用众包反馈模型在科学任务中表现排名的平台之一。澳大利亚国立大学的Rahul “Sciarena促使人们仔细评估大型语言模型辅助的文献相关任务。”

为了对这23个大型语言模型进行排名,Sciarena平台允许研究人员提交科学问题。然后,两个随机选择模型作出答案,这些答案将引用另一个AI研究工具Semanticai2开发以Scholar的文献为支撑。未来,用户会投票决定哪种模型的答案更好,两种模型的答案相当,或者两种模型的表现都很差。

目前,Sciarena平台已向公众开放,客户可以免费提出研究问题。所有用户都可以收到两个模型的答案,并投票表现,但只有经过验证并同意相关条款的用户才能投票。该公司表示,它将经常更新这个列表。

澳大利亚悉尼大学的Jonathan Kummerfeld表示,这将有助于研究人员及时掌握他们所在领域的最新文献,并“找到他们可能错过的研究成果”。他补充说,该平台也可能促进人工智能模型的创新,因为它提供了一种透明的方法来衡量进展。

然而,该平台存在一个潜在的问题,即对用户参与的依赖。在这方面,Cohan表示,该平台是免费的,包含了最先进的模型,这是对用户的一种鼓励。

“阅读大型语言模型产生的论文摘要并不能取代阅读论文本身。”因为它可能与所引用的论文有矛盾,可能误解术语,也可能无法准确地回答问题。

赞一个

分享:
打开微信扫一扫
33
版权及免责声明:本网站所有文章除标明原创外,均来自网络。登载本文的目的为传播行业信息,内容仅供参考,如有侵权请联系删除。文章版权归原作者及原出处所有。本网拥有对此声明的最终解释权
招商合作
请您完善以下信息,我们会尽快与您联系!
论文投稿
参加会议
合作办会
期刊合作
论文辅导
科研绘图
论文翻译润色
论文查重
其他
提交
专家招募
个人信息
联系信息
提交
在线客服
商务合作
专家招募
常见问题
手机端
扫描二维码
与学术大咖共探知识边界
出版无忧
投稿无忧
翻译服务
润色服务
自助查重
排版校对
科研绘图