AI论文工厂大规模涌入癌症研究 逾25万篇论文存造假嫌疑 ​

2026年02月06日 21:43 次阅读 稿源:Win10s.COM 条评论

一项对260万篇癌症研究论文进行的大规模分析显示,癌症领域的科学文献正被质量可疑、疑似批量生产的研究严重“稀释”,其中超过25万篇论文在行文模式上与已撤稿的可疑论文高度相似,引发对科研诚信和临床证据可靠性的担忧。

 澳大利亚昆士兰科技大学(QUT)公共卫生与社会工作学院及澳大利亚卫生服务创新中心(AusHSI)的Adrian Barnett教授联合国际团队,开发出一款可自动识别“批量生产”论文特征的语言模型工具,并将其首次大规模应用于癌症研究领域,结果显示潜在问题远超学界先前预期。

与传统侧重寻找重复图片、虚假数据等“硬伤”的技术不同,这一新工具把识别重点放在论文语言本身,通过分析写作风格与措辞模式来锁定疑似“论文工厂”的产物。 研究团队利用已因造假嫌疑而撤稿的论文样本,训练了一套基于BERT的语言模型,让其学会识别这些文章在结构与表达上的“指纹”,再将模型应用于1999年至2024年间发表的癌症研究文献。 在已知样本的验证测试中,该模型对可疑论文的识别准确率达到91%,显示出作为期刊编辑和研究机构“预警系统”的潜力。

Barnett指出,“论文工厂”本质上是出售虚假或低质量研究成果的商业机构,可以按需提供署名位置,甚至整篇“成品”论文。 为了快速出货,这些机构往往重复使用固定模版、重复段落或不自然的行文结构,并可能凭空捏造数据和图像,使得论文在表面上看似规范,却在科学可信度上严重存疑。 他形容这套AI工具为“科研垃圾邮件过滤器”:正如电子邮箱可自动拦截垃圾邮件,这一系统则负责标记在写作风格和结构上高度接近已撤稿欺诈论文的投稿,为人工复核提供优先名单。

该研究还揭示出若干值得警惕的趋势。 在过去二十多年里,被模型标记为可疑的癌症论文占比显著攀升:从2000年前后约1%一路上升,在2022年达到逾16%的峰值,显示问题呈加速扩散态势。 受影响的期刊覆盖范围极广,涉及多家大型出版集团旗下的数千种期刊,其中包括部分高影响力刊物,说明“论文工厂”产物已渗透至癌症研究出版体系的诸多层级。 从学科方向看,问题最集中的领域是分子癌症生物学和早期实验室基础研究,而在具体癌种中,胃癌、肝癌、骨肿瘤及肺癌等方向出现的疑似可疑论文比例尤为突出。

目前,已有三本科学期刊在试点将该工具纳入编辑初筛流程,用于在送审前识别潜在造假或批量生产稿件,从而节省同行评审资源并降低不良论文进入正式文献体系的风险。 研究团队计划将这一方法推广到癌症之外的其他研究领域,并随着更多“论文工厂”活动被确认,不断迭代训练数据,以提高模型的灵敏度和特异性。 同时,Barnett等人强调,模型给出的结果并不等同于直接认定论文造假,而是提供一份需要由领域专家深入审查的“高风险清单”。

Barnett指出,癌症研究直接影响临床试验设计、药物研发方向以及患者治疗决策,如果造假的研究混入证据体系,可能误导真正的科研工作,甚至拖慢对患者有益疗法的进展。 因此,尽早识别和遏制“论文工厂”式虚假研究,对于维护科学文献的可信度、保障临床实践的可靠性具有关键意义。 相关研究以“基于机器学习的癌症研究论文工厂潜在论文筛查:方法学与横断面研究”为题发表于《英国医学杂志》(BMJ),为学术出版界应对批量造假问题提供了新的技术路径和实证依据。

对文章打分

AI论文工厂大规模涌入癌症研究 逾25万篇论文存造假嫌疑 ​

1 (50%)
已有 条意见

    最新资讯

    加载中...

    编辑精选

    加载中...

    热门评论

      Top 10

      招聘