本报讯 一项对学术文献的大规模分析发现,2024年发表的生物医学论文摘要中约1/7是在人工智能(AI)的帮助下撰写的。医学数据库PubMed去年索引的150万篇摘要中,超过20万篇包含了大语言模型(LLM)通常建议使用的词汇。相关研究7月2日发表于《科学进展》。
英国伦敦大学学院的Andrew Gray表示:“由LLM编辑的论文数量一直在持续增加。”他认为,研究人员尚未充分认识到这些工具产出的学术成果的规模,“希望这篇论文能推动人们关注这一问题”。
许多团队试图评估LLM对学术产出的影响,但这一过程颇具挑战性,因为大多数使用者不会透露这种做法。常见方法是训练模型来识别人类撰写的文本与LLM生成文本的差异,再将其应用于文献评估。然而,目前尚不清楚这些模型如何区分两种类型的文本,并且训练数据集并不总是能反映LLM生成文本的最新趋势。
德国图宾根大学的Dmitry Kobak及同事采用了一种更开放的研究方法。他们在摘要中搜索了2022年11月ChatGPT广泛使用后出现频率异常升高的“冗余词汇”。
研究发现,有454个词汇在2024年的出现频率远高于2010年以来的任何年份。它们多为与研究内容无关的“风格”词,且以动词和形容词为主。其中既有常见词汇“发现”“关键”“潜力”,也有较生僻的词汇“探究”“展示”。Kobak指出,2024年下半年新增的冗余词汇包括“显著增强”“妨碍”,以及“无与伦比”“无价”等最高级形容词。
科学词汇的演变是长期过程。2021年有190个“冗余词汇”,多为与研究内容相关的名词。但自LLM普及以来,词汇的变化更为明显,且主要体现在文体上。
此外,在计算科学和生物信息学等领域,超过1/5的摘要由LLM辅助撰写。Kobak表示,“今年的整体数据可能进一步上升,LLM的使用仍在持续增加。”AI实际使用率可能比最新研究显示的还要高。
2月,法国巴黎高等师范学院的Mingmeng Geng及同事在预印本平台arXiv公布的研究指出,部分标志性词汇和短语,如“探究”在2024年底的出现频率有所下降。他认为,这可能是由于相关研究将其标记为“AI使用指标”,促使作者删除了此类词汇,或调整了他们的LLM,避免被检测到。
随着作者不断调整策略,评估AI对学术文献的影响将变得越发困难。一大挑战在于,包括Kobak团队在内的研究均无法确定AI工具的具体使用方式。作者可能将其用于合理场景,如润色文本或辅助翻译,也可能涉及更具争议的做法,如在缺乏适当监督的情况下生成大段文本。“这其中存在真正的科研诚信问题。”Gray说。(王方)