根据对学术文献的大规模分析,去年发表的大约1/7的生物医学论文摘要可能借助人工智能。(AI)完成写作。2024年,医学数据库PubMed收录的150万篇摘要中,包含大型语言模型的文章超过20万篇(LLM)经常推荐使用词汇。
相关研究于2024年6月以预印本的形式在线公布,预计上半年约1/9的摘要将由AI协助完成。上述最新分析结果将于今年7月2日在《科学进步》中公布。
Andrew,英国伦敦大学学院。 Gray说:“LLM编辑的论文数量一直在不可阻挡地增加。”他认为,研究人员还没有充分认识到这些工具用于产生学术成果的规模。“希望这篇论文能促进人们对这个问题的关注”。
很多团队试图评估LLM对学术输出的影响,但这个过程是相当具有挑战性的,因为大多数用户没有透露这种行为。常见的方法是训练模型来识别人类和LLM生成文本的区别,然后应用于文献评估。但目前还不清楚这类模型如何区分两种文本,训练数据集可能无法反映LLM生成文本的最新趋势。
Dmitry在德国图宾根大学。 Kobak和他的同事采用了更开放的研究方法。在摘要中,他们搜索了2022年11月ChatGPT普及后频率异常上升的“冗余词汇”。
研究发现,2024年出现454个单词的频率比2010年以来的任何一年都要高得多。他们大多是与研究内容无关的“风格词”,主要是动词和形容词。常见词“发现”和“潜力”不仅存在,还存在“探索”和“展示”。Kobak指出,2024年下半年新增的冗余词包括最高级别的形容词,如“显著增强”、“障碍”和“无与伦比”和“极其有用”。
科学词汇的演变是一个长期的过程。2021年有190个“冗余词汇”,其中大部分是与研究内容相关的术语。然而,自LLM普及以来,词汇的变化更加明显,主要体现在风格层面。
另外,在计算科学和生物信息学等领域,LLM辅助撰写了超过1/5的摘要。Kobak说:“今年的整体数据可能会进一步增加,LLM的使用仍在继续增加。AI的实际使用率可能高于最新研究所表明的。
二月份,法国巴黎高等师范学院的Mingmeng Geng和同事在预印平台arXiv发布的一项研究中指出,2024年底“探索”等一些标志性词汇和短语的出现频率有所下降。他认为,这可能是因为相关研究将其标记为“使用AI”,促使作者删除此类词汇,或者调整LLM请求以避免测试。
随着作者策略的不断调整,越来越难以评估AI对学术文献的影响。另一个主要挑战是,包括Kobak团队在内的研究无法确定AI工具的具体使用方法。作者可能会在没有适当监督的情况下生成大段文本,比如润色文本或辅助翻译,或者涉及到更有争议的做法。“真正的科研诚信存在隐患。”Gray说。
赞一个