首页学术会议论文辅导出版无忧

AI也能写学术论文了？上海交大团队揭开大模型撰写科研综述的秘密

研发家 | 2025-10-31 0

在学术界，写一篇高质量的综述论文就像是给一个复杂领域绘制一幅完整的地图——你需要收集海量文献，梳理清楚各种理论和方法的来龙去脉，还要用清晰的逻辑把它们串联起来。这个过程通常需要专家花费数月甚至一年的时间。然而，随着人工智能技术的发展，一个有趣的问题出现了：AI能否代替人类完成这项复杂的学术工作？

这项由上海交通大学的孙兆君、朱旭舟、周轩和、童鑫、吴帆教授团队，联合清华大学的王硕、李国良、刘知远教授，以及上海AI实验室的符杰研究员共同完成的研究，发表于2025年10月的arXiv预印本平台（论文编号arXiv:2510.03120v2），首次系统性地回答了这个问题。研究团队就像是给AI写论文这件事做了一场"期末考试"，开发了一套名为SurveyBench的评估体系，专门用来检验AI是否真的能写出符合人类学者标准的学术综述。

这项研究的意义远超学术圈本身。设想一下，如果AI真的能够快速生成高质量的综述论文，那么科研人员就能从繁重的文献整理工作中解脱出来，将更多精力投入到创新性研究中。对于刚入门的研究生来说，这更像是有了一位博学的导师，能够快速为他们梳理某个领域的全貌。而对于普通人来说，这意味着复杂的科学知识可能会以更易懂的方式呈现出来。

研究团队发现了一个让人意外的现象：虽然目前的AI系统确实能够生成看起来很专业的综述论文，表面上读起来很流畅，逻辑也算清晰，但仔细检验后发现，这些AI生成的综述在深度和准确性方面与人类专家撰写的综述相比，仍然存在显著差距。这就好比一个学生背诵了教科书的内容，能够流利地复述，但当老师深入提问时，就暴露出理解不够深入的问题。

为了得出这个结论，研究团队做了大量细致的工作。他们收集了11343篇最新的arXiv论文和4947篇高质量的人类撰写综述，涵盖了计算机科学的主要分支，从人工智能到数据库管理，从图像识别到自然语言处理。这就像是建立了一个巨大的"标准答案库"，用来检验AI的表现。

一、AI写综述的现状：表面功夫做得不错，深入考查就露馅

当前的AI写综述主要有两大类型。第一类是通用型AI助手，比如OpenAI的DeepResearch、Google的Gemini等，它们就像是博学的万能助手，什么领域都能聊两句，但往往不够专业。第二类是专门为学术综述写作设计的AI系统，如AutoSurvey、SurveyForge、LLM×MapReduce-V2等，它们就像是专门训练的学术写手，对论文格式、引用规范等都很熟悉。

这些AI系统写综述的过程很像人类学者的工作流程。首先是大海捞针般地搜集相关论文，就像在图书馆里翻找资料一样。接着是给这些论文分门别类，制定一个清晰的大纲框架。最后是将内容填充进去，形成完整的综述文章。从表面看，这个过程与人类专家的工作方式非常相似。

然而，当研究团队深入检验这些AI生成的综述时，问题就暴露出来了。就像一个厨师做菜，表面看起来色香味俱全，但仔细品尝却发现调料搭配不当，火候掌握不准。AI生成的综述虽然结构完整，语言流畅，但在技术细节的准确性、对不同方法优缺点的深入分析、以及对未来发展趋势的预测等方面，都显得力不从心。

具体来说，AI写的综述容易出现几个典型问题。第一是"蜻蜓点水"，对每个技术方法都有提及，但缺乏深入的分析和比较。第二是"生搬硬套"，经常直接摘抄原论文的内容，缺乏自己的理解和综合。第三是"见木不见林"，虽然罗列了很多方法，但缺乏对整个领域发展脉络的宏观把握。

二、SurveyBench：给AI写综述来一场全方位体检

为了科学地评估AI写综述的能力，研究团队开发了SurveyBench这套评估体系，就像是为AI设计了一场既有笔试又有口试的综合考试。这套体系的创新之处在于，它不仅仅看AI写出来的文章表面质量如何，更重要的是测试这些综述是否真正有用——读者能否从中获得有价值的信息。

传统的评估方法就像只看作文的语法和用词是否正确，而SurveyBench则更进一步，还要检验文章的内容是否准确、逻辑是否严密、信息是否完整。研究团队设计了两套互补的评估方法：一套是"对比评估"，将AI写的综述与人类专家写的综述进行详细对比；另一套是"问答测试"，通过设计各种问题来检验综述的实际价值。

在"对比评估"环节，研究团队从多个维度来打分。在大纲质量方面，他们检查AI是否全面覆盖了该领域的主要内容、是否与主题相关、结构是否清晰合理。在内容质量方面，他们考察每个章节是否包含了关键知识点、分析是否深入、主题是否聚焦、逻辑是否连贯、语言是否流畅。此外，他们还特别关注综述中是否包含图表、公式等非文字元素，因为这些往往能让复杂概念更容易理解。

"问答测试"环节更像是给综述做实用性检验。研究团队设计了两类问题：一类是通用问题，比如"这个领域的核心概念是什么？""主要方法有哪些分类？""未来发展趋势如何？"等等。另一类是针对具体技术细节的专业问题，需要综述提供准确、详细的信息才能回答。这就好比一个学生不仅要能背诵课文，还要能运用所学知识解决实际问题。

为了确保评估的公平性，研究团队精心选择了20个具有代表性的研究主题，这些主题涵盖了计算机科学的各个重要分支，既有传统的机器学习、数据挖掘等领域，也有新兴的大语言模型、多模态学习等热门方向。每个主题都有对应的高质量人类综述作为参照标准。

三、意想不到的评估结果：AI综述看起来很美，实用性却打折扣

当所有测试完成后，结果让人既惊讶又深思。从表面指标来看，AI生成的综述表现相当不错。在语言流畅度、结构完整性等方面，AI的表现与人类专家相差不大，有些甚至能达到人类水平的90%以上。这就像是AI学会了写作的"套路"，知道一篇好综述应该包含哪些部分、应该用什么样的学术语言。

然而，当研究团队深入检验这些综述的实际价值时，差距就显现出来了。在内容深度评估中，AI综述的平均得分比人类综述低了大约21%。更重要的是，在问答测试环节，AI综述的表现更是不尽如人意，特别是在回答需要深入理解和综合分析的问题时。

具体分析这些差距，研究团队发现了几个有趣的现象。首先是"细节缺失"问题。AI综述往往只能给出概念的表面解释，缺乏深入的技术细节。比如在解释一个算法时，人类专家会详细说明算法的适用场景、优缺点、与其他算法的比较等，而AI往往只是简单描述算法的基本原理。

其次是"关联思维不足"。人类专家在写综述时，经常能发现不同技术方法之间的内在联系，或者将某个领域的发展与相关领域进行类比。比如在讨论图像处理技术时，可能会联系到信号处理的相关理论。而AI在这方面明显不足，很难建立这种跨领域的知识连接。

第三是"抽象能力有限"。优秀的综述不仅要罗列各种方法，更要能够提炼出该领域的核心思想和发展规律。人类专家能够站在更高的角度，总结出一些具有指导意义的观点和结论。而AI往往停留在对具体方法的描述上，缺乏这种高层次的抽象和总结能力。

有趣的是，研究团队还发现了一个意外现象。在前瞻性内容方面，AI的表现竟然相当不错。几乎所有的AI综述都包含了对未来发展趋势的预测和讨论，而且这些预测往往还比较合理。这可能是因为AI在训练过程中学到了综述写作的"模板"，知道一篇完整的综述应该包含对未来的展望。

四、不同AI系统的"个性"分析：各有千秋但都不完美

在测试的四个AI系统中，每个都表现出了不同的"个性"特征，就像不同性格的学生在同一场考试中的表现。

OpenAI的DeepResearch表现最为均衡，在技术细节描述和结构分类方面表现出色，就像一个善于整理资料的学霸。但它也有明显的短板：生成的综述往往比较简洁，缺乏详细的层次结构，有时会遗漏一些重要的子话题。这可能与其设计理念有关——追求精炼而非全面。

AutoSurvey在某些方面表现不错，但在技术相关内容的处理上存在明显不足。就像一个文科生写理科论文，虽然语言表达没问题，但对专业概念的理解和阐述就显得力不从心了。特别是在回答需要深入技术知识的问题时，AutoSurvey经常无法提供准确的答案。

SurveyForge和LLM×MapReduce-V2在很多方面表现相似，这表明它们可能采用了类似的技术路线。有趣的是，LLM×MapReduce-V2在生成图表和表格方面表现突出，平均每篇综述包含约11个表格，远超人类综述的5.45个。但由于其生成的内容过于冗长，整体的"性价比"反而不高。

研究团队还注意到一个有趣现象：AI系统在处理熟悉领域和陌生领域时表现差异明显。对于训练数据中较常见的传统领域，如机器学习、数据挖掘等，AI的表现相对较好。而对于新兴的、文献相对较少的领域，AI的表现就明显下降。这就像学生对熟悉的考试题型应对自如，遇到新题型就手忙脚乱。

在计算资源消耗方面，不同系统的差异也很大。OpenAI DeepResearch最为高效，消耗的计算资源最少，但生成的内容也相对简洁。LLM×MapReduce-V2消耗的资源最多，比前者多出33.7%，但生成的内容更加详细，包含更多的结构化元素。

五、深入案例分析：强化学习综述的人机对决

为了更直观地展示人类综述与AI综述的差异，研究团队选择了强化学习这个热门领域进行详细的案例分析。就像是让两个学生针对同一个话题写作文，然后逐句比较他们的表现。

在大纲结构方面，人类专家撰写的综述呈现出精细的层次化组织。就像一棵枝繁叶茂的大树，主干清晰，分支合理，每个小节都有明确的主题和内容范围。而AutoSurvey生成的综述结构相对粗糙，就像用粗线条勾勒的草图，虽然大致轮廓正确，但缺乏细节和深度。

在内容深度方面，差异更加明显。人类专家在解释强化学习的核心概念时，不仅会给出定义，还会详细阐述概念的来源、发展历程、与其他概念的关系等。比如在讨论"价值函数"这个概念时，人类专家会解释它在不同算法中的具体应用、计算方法的演进、存在的理论问题等。而AI往往只是给出简单的定义，缺乏这种深层次的分析。

在内容覆盖方面，人类综述表现出更强的全面性和平衡性。人类专家能够识别出哪些是该领域的核心内容，哪些是重要但不那么关键的内容，并相应地分配篇幅。而AI往往在内容选择上缺乏判断力，可能对某些次要内容过度着墨，而对关键内容一笔带过。

最有趣的是，在回答具体问题时，两者的差异最为突出。比如当问到"强化学习中的探索与利用平衡问题有哪些主要解决方案"时，人类综述能够提供详细、准确的答案，包括具体的算法名称、工作原理、适用场景等。而AI综述往往只能给出模糊、笼统的回答，缺乏具体的技术细节。

六、AI写综述面临的三大挑战

通过大量的测试和分析，研究团队总结出AI在写学术综述时面临的三大核心挑战，这些挑战就像是横在AI面前的三座大山。

第一座大山是"深度理解能力不足"。AI虽然能够处理大量文献，快速提取关键信息，但往往停留在表面层次，缺乏对技术原理的深入理解。这就好比一个学生能够快速背诵教科书的内容，但无法真正理解其中的道理。当遇到需要深入分析或比较的问题时，AI就显得力不从心。

第二座大山是"缺乏关联思维"。优秀的学术综述不仅要介绍各种方法和技术，更要能够发现它们之间的内在联系，建立起知识网络。人类专家能够凭借丰富的经验和直觉，发现不同研究之间的隐性关联，或者从一个领域的发展中获得启发，应用到另一个领域。而AI在这方面明显不足，往往只能进行机械式的信息整合。

第三座大山是"抽象总结能力有限"。真正有价值的综述不仅要详细介绍各种具体技术，更要能够从更高的角度总结出该领域的发展规律、核心思想和未来趋势。这需要很强的抽象能力和洞察力。虽然AI能够识别出一些表面的模式和趋势，但缺乏那种能够"透过现象看本质"的深度思考能力。

这些挑战的根源在于，当前的AI系统主要依靠统计学习方法，通过大量数据训练来学习模式和规律。虽然这种方法在很多任务上表现出色，但在需要深度理解、创新思维和抽象总结的任务上，仍然存在明显局限。

七、未来展望：AI与人类的协作之路

尽管发现了AI在写综述方面的诸多不足，但研究团队并没有完全否定AI的价值。相反，他们提出了一个更加现实和平衡的观点：在可预见的未来，AI不太可能完全替代人类专家写综述，但可以成为非常有价值的助手。

这种协作模式就像医生使用各种高科技设备辅助诊断一样。AI可以承担一些重复性、基础性的工作，比如文献搜集、初步分类、格式整理等，让人类专家能够将更多精力投入到需要创造性思维的工作上，如深度分析、创新观点提出、前瞻性判断等。

具体来说，AI可以在以下几个方面发挥重要作用。首先是"信息助手"，帮助研究人员快速搜集和整理相关文献，提供基础的分类和摘要。其次是"写作助手"，协助完成综述的初稿撰写，处理格式规范、引用管理等技术性工作。最后是"质量检查员"，帮助发现综述中的遗漏、错误或不一致之处。

同时，这项研究也为AI技术的改进指明了方向。未来的AI系统需要在以下几个方面取得突破：加强对专业知识的深度理解，而不仅仅是表面的模式匹配；提升跨领域知识整合能力，能够建立不同概念之间的有意义联系；增强抽象思维能力，能够从具体事实中提炼出一般性规律和洞察。

研究团队还指出，随着AI技术的不断发展，特别是在推理能力、知识整合能力等方面的进步，AI写综述的质量将会逐步提升。但这是一个渐进的过程，需要技术突破、大量数据积累和方法创新的共同推进。

说到底，这项研究为我们揭示了AI在学术写作领域的真实现状：既不是万能的神器，也不是无用的摆设，而是一个有潜力但尚需完善的工具。对于学术界来说，关键是要客观认识AI的能力边界，既充分利用其优势，又清楚其局限性。

对于普通人来说，这项研究的意义在于让我们更好地理解AI技术的发展水平。当我们看到AI生成的各种文章和报告时，需要保持理性的判断，既欣赏其便利性，也意识到其可能存在的不足。毕竟，真正有价值的知识创造仍然需要人类的智慧、经验和创造力。

这项研究最终告诉我们，在人工智能快速发展的时代，人类的独特价值并没有因此而降低，反而更加凸显。AI可以成为我们的得力助手，但无法替代我们进行深度思考和创新。未来最理想的状态可能是人机协作，各自发挥所长，共同推进知识的创造和传播。

有兴趣深入了解这项研究细节的读者，可以通过论文编号arXiv:2510.03120v2在arXiv平台上查询完整论文。

Q&A

Q1：SurveyBench是什么？它是如何评估AI写综述能力的？

A：SurveyBench是由上海交大团队开发的AI学术综述写作评估体系，它通过两套方法来检验AI写的综述质量：一套是"对比评估"，将AI综述与人类专家综述进行详细对比打分；另一套是"问答测试"，通过设计各种问题来检验综述的实际价值。就像给AI设计了一场既有笔试又有口试的综合考试，不仅看表面质量，更测试实用性。

Q2：目前的AI写综述水平如何？能替代人类专家吗？

A：目前AI写综述在表面指标上表现不错，语言流畅度、结构完整性能达到人类水平的90%左右，但在内容深度方面比人类综述低约21%。AI存在细节缺失、关联思维不足、抽象能力有限等问题，暂时无法完全替代人类专家，更适合作为辅助工具来承担基础性工作。

Q3：不同AI系统在写综述方面有什么特点？

A：研究测试的四个AI系统各有特色：OpenAI DeepResearch最均衡但内容简洁；AutoSurvey在技术内容处理上较弱；SurveyForge和LLM×MapReduce-V2表现相似；LLM×MapReduce-V2善于生成图表但内容冗长。所有AI系统在处理熟悉领域时表现更好，遇到新兴领域就明显下降。

赞一个

打开微信扫一扫