研究大量预印本存档提示抄袭地理

提交给arXiv(数字预印本文章库)的数十万份技术手稿的新分析,为科学抄袭的后果和地理提供了一些有趣的见解。似乎从其他论文中复制文本在某些国家比其他国家更常见,但对于那些广泛复制的作者来说,结果通常是相同的:他们的论文没有被引用太多。

自成立以来1991年,arXiv已经成为世界上分享物理,数学和其他数学领域发现的最大场所。它每天发表数百篇论文,并且正在快速接近其第一百万篇论文。任何人都可以发送论文,提交的内容不会然而,论文确实经过质量控制过程。最后的检查是一个计算机程序,将论文的文本与已经在arXiv上发表的其他论文的文本进行比较。目标是标记那些很有可能剽窃已发表作品的论文。

“文本重叠”是技术术语,有时候结果证明是无辜的。例如,一篇评论文章可能会慷慨地引用一篇文章作者引用的,或者作者可能会回收并略微更新他们以前的作品中的句子。arXiv剽窃检测器为这些论文提供了通行证。“它是一种相当复杂的机器学习逻辑分类器,”康奈尔大学物理学家arXiv创始人PaulGinsparg说道,“它有特殊的方法来检测块引号,斜体文本,引号中的文本,以及数学定理的陈述,避免误报。“

只有当作者没有明显的理由从已发表的作品中复制了大量文本时-特别是如果以前的作品没有被引用,在作者身上没有重叠-软件是否在文章上加上了“标志”,包括与文本重叠的文章的链接。该标准“比大多数科学期刊使用的标准”要宽松得多,Ginsparg说。/p>

探讨“文本重用”的一些后果,Ginsparg和Cornell物理博士。学生DanielCitron对1991年至2012年期间提交给arXiv的757,000篇文章中的每一篇文本进行了比较。该研究的标题是周一发表在“美国国家科学院院刊”(PNAS)上的一篇文章已发表的作品,论文被引用的频率较低。(完整的论文也可以在arXiv上免费获得。)它还发现文本重用是非常常见的。在筛选出评论文章和合法引用之后,发现大约16名arXiv作者中有一人复制了他们之前发表的作品中的长短语和句子,这些短语和句子加起来与整篇文章大致相同。更令人担忧的是,每1000名提交作者中就有一人在没有引用他们的情况下从其他人的论文中复制了相当于段落的文本。

所以这个世界的所有文本都在这里重复使用?PNAS论文中明显遗漏的是潜在抄袭的全球地图。每当作者向arXiv提交论文时,作者都声明他或她的居住国。因此,应该有可能揭示哪些国家的抄袭者比例最高。Ginsparg告诉ScienceInsider,没有包含地图的原因是,他们研究中检测到的所有文本重叠不一定是抄袭。

然而,Ginsparg确实同意与ScienceInsider分享arXiv的标记数据。自2011年8月1日起,当arXiv开始系统地标记文本重叠时,来自151个国家的106,262位作者共提交了301,759篇文章。(每篇论文可以有更多的共同作者。)总体而言,3.2%(9591)的论文被标记。这不仅仅是由几个坏苹果提交的论文。这些被标记的论文来自提交作者的6%(6737)。换句话说,每16位研究人员中就有一位自从提交论文到arXiv以来2011年8月被抄袭检测器至少标记过一次。

上一篇:希腊的博士教育 下一篇:那边忽然一顿,白染变了声音 雁回

本文URL:http://www.yummiyo.com/danweibushu/zhichanzhongxin/201910/1119.html

Ctrl+D 将本页面保存为书签,全面了解最新资讯,方便快捷。