BMJ研究：利用机器学习筛查疑似造假的论文

集群智慧张老师 · 发表于 2026-2-20 15:20:13

2026年1月30日，BMJ发表了一篇文章，该文章训练并验证机器学习模型，以区分癌症领域疑似出自论文工厂的论文与真实研究论文。研究发现，癌症出版领域可疑论文的比例在不断上升，论文工厂日益扩大，并且将目标瞄准了更高影响因子的期刊。

原文链接：https://www.bmj.com/content/392/bmj-2025-087581
01
研究背景
论文工厂通过快速批量生产低质量研究论文来最大化收益。这些文章可能存在以下特征：通常使用已有模板，只替换特定的术语；可能包含错误试剂、伪造数据与实验，存在经过修图或重复使用的图表；通常内容泛泛、写作粗糙、章节间缺乏连贯性，且仅提供肤浅的研究论证；可能会创建从未合作过，或者未作出任何实质贡献的虚假作者；常自引文章；可能贿赂编辑并操纵同行评审以促成发表。
癌症领域受其影响尤为严重。该领域发表压力大、专业数据与技术相对易伪造，以及同行评审能力有限，造假论文更易生产且难以识别。
跨学科研究显示，机器学习方法可以基于撤稿观察数据库的文本数据，预测撤稿和论文工厂产出文章，但该方法在癌症研究领域的效能尚未经过验证。
假设论文工厂使用的文本模板会覆盖标题和摘要，且这些模板具有领域和文章类型特异性，可为机器学习模型提供强信号。本研究基于BERT构建机器学习流程，输入癌症领域已撤稿的论文工厂文章的标题和摘要，通过模型识别文本模式，进而检测现有论文与已撤稿的论文工厂文章的相似性。
02
研究方法
本研究首要目标是训练并评估模型的可靠分类能力，以区分撤稿文章（疑似出自论文工厂）与真实癌症研究论文的标题摘要。其次，使用模型筛查数百万篇癌症研究论文，评估被标记的可疑论文随时间的变化趋势，被标记论文的国家、出版商、研究领域的变化，并分析其在高影响因子期刊中的演变情况。
癌症研究数据集
2025年3月下载pubmed中所有生物医学研究文献，排除摘要非英文、空白、截断、无标点、少于250字或大于4000字的文章。纳入1999-2024年的所有文章，去掉重复、撤稿、更正、关注文章后，保留1740万篇文章。通过MeSH术语和美国国家癌症研究所术语库构建关键词，在论文标题和摘要中进行匹配，最终得到包含2,647,471篇论文的癌症研究数据集，这些论文发表于11,632种期刊。
提取数据进行可视化分析：第一作者所属国家、出版商、癌症类型、主要癌症研究领域以及SCImago期刊影响因子。
注：‌Scimago是一个基于Scopus数据库的学术评估平台‌，提供期刊排名、机构排名等多种科研评价工具。
论文工厂数据集
论文工厂数据集通过两个来源构建：一是撤稿观察网数据库中标记为论文工厂来源的论文（https://retractiondatabase.org/RetractionSearch.aspx）；另一个是图像诚信专家（学术侦探）整理的在线列表，其中列出了图像篡改的证据。得益于PubPeer平台的匿名贡献者，论文工厂论文的汇编资料已在线发布在电子表格中（链接：https://docs.google.com/spreadsheets/d/1zKxfaqug4ZhwHyGzslF38pFyC8xtU8lzmmOFMGYITDI/edit?gid=1473413779#gid=1473413779）
撤稿观察数据库中的论文用于模型开发，最终纳入2,202篇论文工厂撤稿论文。图像诚信专家数据集用于外部验证，最终选取3,094篇疑似论文工厂论文。
模型选择和训练
训练数据集包含50%论文工厂论文和50%真实论文。前者假定其为论文工厂产出，后者用作对照，选择后均在PubPeer上进行人工核查。对照组文献从癌症研究数据集中筛选，以下三部分各占约三分之一：中国机构发表在《Cell》,《Cancer Cell》，《Molecular Cell》，《The EMBO Journal》上的论文（为减少语言上可能存在的偏倚）；随机选取瑞典/芬兰/挪威机构的论文（因撤稿观察网数据库中无相关撤稿记录）；随机选取上述四个期刊中除外上述国家的论文。
训练数据集中4404篇论文被分为三部分，70%用于训练、17.5%用于优化、12.5%用于内部验证，每部分论文工厂论文和对照论文保持1:1。
模型性能（准确率、灵敏度和特异度）首先在内部验证集上评估，然后使用图像诚信专家整理的在线清单进行外部验证。另外进行了补充验证，使用了疑似涉及论文工厂的873篇癌症研究论文，这些论文来自三项研究，这些研究探讨了存在核苷酸序列/细胞系问题的癌症相关论文。
癌症文献筛查
使用经过微调的BERT模型对1999-2024年间发表的260万篇癌症研究文献进行筛查，经过训练，该模型可识别与被撤论文工厂论文相似的文本特征，将识别出的论文称为"标记论文"。
03
研究结果
模型性能
内部验证准确率达到0.91，灵敏度为0.87，特异度为0.96。外部验证中这些指标分别为：0.93，0.87和0.99。补充验证中，模型共标记了72%的论文。
由于内部验证集与外部验证集的错误分类相似，二者合并分析时，假阳性文章，即将对照论文误判为论文工厂论文，仅39篇（共3375篇）。
癌症研究数据集的筛查
使用模型筛查1999-2024年的癌症研究数据集，261,245篇论文被标记为可疑，占数据集中所有论文的9.87%。
时间趋势
1999-2022年间标记论文的数量呈指数级增长，于2022年达到峰值，随后两年略有下降。2000年初标记论文的比例保持在1%左右，2020年代初，这一比例已超过当年癌症研究产出的15%。

图.每年的标记论文数量
国家
各国产出的论文中，标记论文占比最高的是中国（497,672/177,907，36%），其次是伊朗（6,801/33,935，20%）。就标记论文数量而言，美国位列第二，被标记10,511篇论文，占其发表论文的2%。
出版商及其期刊
标记论文比例最高为67%，来自Verduci Editore旗下的癌症研究期刊《European Review for Medical and Pharmacological Sciences》。排名第二的出版商是International Scientific Literature，旗下《Medical Science Monitor》的标记论文比例约45%。其余四家出版商依次为E-Century Publishing Corporation（44%）、Spandidos Publications（38%）、Ivyspring International Publisher（30%）和IOS Press（30%）。
大型出版商Springer Nature，Elsevier，和Wiley标记论文比例较低，但标记论文的绝对数量较高。
研究领域
标记论文主要集中于癌症生物学与基础研究领域、新疗法研发或评估、诊断与预后领域，标记比例均超过10%。生存研究、支持性照护与临终关怀；流行病学与人群研究；卫生系统、政策与实施等领域的标记论文比例较低，均不足2%。

图.标记论文比例较高的研究领域
影响因子前10%的期刊
影响因子排名前10%的期刊中，标记论文比例呈现出随时间推移而明显上升的趋势，于2022年超过10%。

图.影响因子前10%期刊中的标记论文比例
04
模型在不同验证集上表现一致，证实了其对论文工厂文本特征的可靠识别能力，并强化了“此类论文共享通用标题与摘要模板”的假说。标记论文的多项特征与既往研究一致，如标记论文随时间的指数增长趋势与已知的论文工厂发展历程吻合；标记论文在基础研究领域更集中等。
研究局限性

, A) I; `7 V- K+ B% }! g两个论文工厂数据集可能存在局限性。撤稿观察网数据库中的“论文工厂”标签仅反映其工作人员对出版商撤稿声明的解读，而出版商调查这些论文的方式缺乏统一标准，导致该标签可能对应不同证据强度。图像诚信专家数据集中包含图像篡改证据，这些文章可能与论文工厂无关，且专家的调查方法与透明度存在差异。模型检测到的更可能是训练集中代表的文本特征，而非论文工厂论文的全部特征。
+ f8 i: [" D3 h& u7 v% q0 `! m1 a. G
, ~: T3 L# {2 y% x* ^! s Y训练集中中国论文占比过高，存在模型将中文语言模式识别为论文工厂文本特征的可能。
$ [$ k) v1 @7 e' Q2 `
6 N% m5 a$ M+ e
4 W0 J! v3 Z4 G8 Y A对照组论文来源可能造成偏倚。4 {6 P% Y& Q, f2 n" p% v
$ E' o0 U) K' D
. E' y2 i# k3 v. Q
; J9 e8 @9 E, ~- o5 e" t
深度学习模型的不可解释性导致无法直接识别BERT捕捉的特征。本研究并非旨在直接识别论文工厂论文或指控任何个人欺诈，而是关注整体模式与趋势。该分类器是一个概率模型，而非不端行为的最终判定。
_. r9 j! d0 F9 V9 D% g& L
* j# d7 ?" S. x, `' I

05
研究结论
利用机器学习模型，通过标题和摘要识别与已撤稿论文工厂论文相似的论文是可行且有效的。研究结果揭示，癌症研究出版领域的标记论文比例不断上升，论文工厂日益扩大，现已将目标瞄准更高影响因子的期刊，这强调了期刊、审稿人和研究人员保持警惕的必要性。
参考文献：BMJ. 2026 Jan 29;392:e087581. doi: 10.1136/bmj-2025-087581.

		自动登录	找回密码
密码			立即注册