上海人工智能实验室发布 新版中文医疗大模型权威评测平台

研发家 | 2025-12-03 0

近日,上海市人工智能实验室发布中文医疗大模型权威评测平台MedBench 4.0,这是国内首个面向垂直大模型、专用大模型、应用场景的医疗大模型评测与验证体系。业内人士介绍,MedBench 4.0为衡量医学AI产品性能与可靠性提供了科学标尺,保障了医疗人工智能产品质量的提升与行业良性竞争。

  据悉,中文医疗大模型权威评测平台MedBench首发于2023年年中,目前更新至第四版。上海人工智能实验室医疗和评测中心负责人徐捷介绍,本次升级包含大语言模型、多模态大模型及智能体三大技术范式,深度对齐国家《卫生健康行业人工智能应用场景参考指引》,覆盖60个全自主构建评测集,共70万余专业评测题。

  记者从上海市人工智能实验室了解到,针对大语言模型评测,平台围绕医学知识问答、语言理解、生成、复杂推理及安全伦理等维度构建了评测集,并创新引入科学指标体系,以缓解模型信息遗漏或幻觉生成等问题对评测结果的影响;针对多模态大模型评测,瞄准医疗影像、检测报告等临床核心场景,平台可覆盖目标检测、图像分类、多模态报告质控、序列影像理解、病程动态追踪等10项细分任务,填补了中文医疗多模态评测领域的技术缺口;针对智能体评测,平台则重点解决智能体执行断层的问题,推动医疗智能体从“能对话”向“能执行、能协作”演进。

  对于医疗大模型评测的意义,徐捷告诉记者,评测首先可以验证医疗大模型的合规性,其次是验证其专业性,比如会不会误诊、漏诊或者开错药,最终帮助市场更好地训练出优质的医疗大模型。

  记者注意到,目前,不少通用大模型如深度求索、千问等都可以分析体检报告和检查报告。那么,医疗大模型的价值何在呢?

  对此,徐捷介绍称,主流通用大模型可以满足日常健康咨询。评测显示,国内头部通用大模型的医学能力已经超过国外同类产品。但对于需要给出专业判断的医疗场景,例如要做哪些检查、如何解读报告、应开什么药或者中医方剂等,大模型还需整合大量医学数据、专家医案和临床经验等语料。医疗大模型能高效处理海量信息,提供循证参考,有助于提升医生诊疗水平、补足基层医疗短板,进而实现医学普惠。

  除推出权威评测平台,上海人工智能实验室还联合专业医疗机构和相关企业,推出了儿童眼病智能筛查与精准干预系统、胃肠多模态辅助诊疗大模型等医疗人工智能应用。(记者 叶健 )

赞一个

分享:
打开微信扫一扫
0
版权及免责声明:本网站所有文章除标明原创外,均来自网络。登载本文的目的为传播行业信息,内容仅供参考,如有侵权请联系删除。文章版权归原作者及原出处所有。本网拥有对此声明的最终解释权
更多服务
招商合作
请您完善以下信息,我们会尽快与您联系!
论文投稿
参加会议
合作办会
期刊合作
论文辅导
科研绘图
论文翻译润色
论文查重
其他
提交
专家招募
个人信息
联系信息
提交
在线客服
商务合作
专家招募
常见问题
手机端
扫描二维码
与学术大咖共探知识边界
出版无忧
投稿无忧
翻译服务
润色服务
自助查重
排版校对
科研绘图