首页学术会议论文辅导出版无忧

谁更擅长23个模型?解答科学问题的排名来了

研发家 | 2025-07-11 33

近日，一个基准测试平台显示，由ChatGPT研发团队开发的人工智能(AI)模型o3被选为解决多个领域科学问题的最佳人工智能工具。

据《自然》报道，艾伦人工智能研究所(Ai2)开发的Sciarena平台根据23个大型语言模型对科学问题的答案进行了排名。102名研究人员根据答案的质量投票。经过1.3万多次投票，美国Open人工智能公司开发的O3模型在自然科学、医疗卫生、工程和人文社会科学领域排名第一。

中国深度求索公司的DeepSeek-R1模型在自然科学问题的回答中排名第二，在工程领域排名第四。谷歌的Gemini-2.5-Pro模型在自然科学问题的回答中排名第三，在工程和医疗卫生领域排名第五。

Armann研究人员Ai2 Cohan表示，用户对o3模型的偏好可能是因为该模型在引用文献时经常提供大量细节，并能在技术上做出详细的回应。但他指出，目前还不清楚为什么不同的模型会有所不同。不同的培训数据和模型优化目标可以在一定程度上解释这种差异。

SciArena是最新开发的评估AI模型在特定任务中表现的平台之一，也是首批利用众包反馈模型在科学任务中表现排名的平台之一。澳大利亚国立大学的Rahul “Sciarena促使人们仔细评估大型语言模型辅助的文献相关任务。”

为了对这23个大型语言模型进行排名，Sciarena平台允许研究人员提交科学问题。然后，两个随机选择模型作出答案，这些答案将引用另一个AI研究工具Semanticai2开发以Scholar的文献为支撑。未来，用户会投票决定哪种模型的答案更好，两种模型的答案相当，或者两种模型的表现都很差。

目前，Sciarena平台已向公众开放，客户可以免费提出研究问题。所有用户都可以收到两个模型的答案，并投票表现，但只有经过验证并同意相关条款的用户才能投票。该公司表示，它将经常更新这个列表。

澳大利亚悉尼大学的Jonathan Kummerfeld表示，这将有助于研究人员及时掌握他们所在领域的最新文献，并“找到他们可能错过的研究成果”。他补充说，该平台也可能促进人工智能模型的创新，因为它提供了一种透明的方法来衡量进展。

然而，该平台存在一个潜在的问题，即对用户参与的依赖。在这方面，Cohan表示，该平台是免费的，包含了最先进的模型，这是对用户的一种鼓励。

“阅读大型语言模型产生的论文摘要并不能取代阅读论文本身。”因为它可能与所引用的论文有矛盾，可能误解术语，也可能无法准确地回答问题。

赞一个

打开微信扫一扫

版权及免责声明：本网站所有文章除标明原创外，均来自网络。登载本文的目的为传播行业信息，内容仅供参考，如有侵权请联系删除。文章版权归原作者及原出处所有。本网拥有对此声明的最终解释权

< 上一篇：微纳量子纠缠光源实现保真度创纪录的新研究下一篇：AI使手术机器人接近“完全自主” >

更多服务

推荐会议

更多 >>

热门标签

#高校动态 #学术不端与撤稿观察 #科研萌新 #学术会议 #EI会议论文 #SCI #文献综述 #论文开题 #论文写作 #学术交流

最新文章

NEW

国科大建校以来，学位证书上首次出现导师名字

明码报价！国家级大学生赛事，被曝“花钱买名次”

武大领导班子调整：上级部门通盘考虑、审慎研究决定，学校党委完全拥护、坚决服从

粤港澳大学生“人工智能创新应用实践”实训营接受报名

教育部同意！3所大学，拆分

重磅，中央组织部发文：改进人才评价机制，避免简单以学术头衔、人才称号确定薪酬待遇、配置学术资源的倾向

大连理工大学副院长于德刚不幸离世，年仅54岁

“80后”院士候选人，任医科大学学术副校长

热点资讯

HOT

国科大建校以来，学位证书上首次出现导师名字

明码报价！国家级大学生赛事，被曝“花钱买名次”

武大领导班子调整：上级部门通盘考虑、审慎研究决定，学校党委完全拥护、坚决服从

粤港澳大学生“人工智能创新应用实践”实训营接受报名

教育部同意！3所大学，拆分

重磅，中央组织部发文：改进人才评价机制，避免简单以学术头衔、人才称号确定薪酬待遇、配置学术资源的倾向

学术资源免费领取

加微信领取20G科研大礼包！
更有众多热门

关于我们

公司简介

关于我们

商务合作

专家招募

会议合作

期刊合作

研享客-校园大使

帮助与支持

常见问题

在线客服

服务邮箱：customer_service@yanfajia.com

公众号二维码

服务号二维码

增值电信业务许可证：鄂B2-20251209 鄂ICP备2023022199号