预印本服务 arXiv 的创始人 Paul Ginsparg 和博士生 Daniel Citron 比较了 1991 到 2012 年间递交到 arXiv 的 757,000 篇论文的文本,发现文本重用现象非常普遍。研究结论发表在 PNAS 上,也同时发表在 arXiv 上。在过滤掉评论文章和合法引用之后,他们发现每 16 位 arXiv 作者中就有一位拷贝了其先前所发表论文的长短语和句子,每 1000 名作者中就有一名没有引用就拷贝了其他作者相当于一段的文字。
arXiv 从 2011 年 8 月开始使用软件自动标记出涉嫌剽窃的文本重用。Ginsparg 透露,151 个国家的 106,262 名作者递交的 301,759 论文中,6737 名作者的 9591 篇论文被标记出来。上图是地图分布:其中中国 6372 名作者中有 688 人被标记出来(超过 10%),保加利亚的 186 名作者有 38 人涉嫌剽窃,比例超过 20%,是新西兰的八倍;日本的比例是6%,而伊朗超过 15%。研究人员认为,这种差异部分可能归因于不同的学术文化。