最新调查:因为Excel出错的论文,不减反增 / 头条资讯

2年前 阅读 / 215 来源 / 原创 文 / 越读党订阅

Excel 软件的自动类型转换功能总是错误地将基因名称转换为日期或其他数据类型,多年来一直困扰着计算生物学家。虽然学界早已意识到该问题,相同的错误却在近年变得越来越普遍了。最近一项针对一万多篇论文的调查显示,其中三分之一研究数据的基因名称...

Excel 软件的自动类型转换功能总是错误地将基因名称转换为日期或其他数据类型,多年来一直困扰着计算生物学家。虽然学界早已意识到该问题,相同的错误却在近年变得越来越普遍了。最近一项针对一万多篇论文的调查显示,其中三分之一研究数据的基因名称都出了错。


图片来源 | Pixabay

撰文 | 武大可

澳大利亚迪肯大学(Deakin University)的研究团队近期对 2014 到 2020 年间发表在 PubMed Central 的 11 117 项研究论文的补充基因列表进行了调查,发现其中有 3436 组数据出现了由Microsoft Excel 的自动类型转换导致的错误,错误的基因列表占比超过了 30%。分析结果 7 月 30 日发表在《公共科学图书馆-计算生物学》(PLoS Computational Biology)上。

“这些错误至关重要。”- Mark Ziemann

这项研究的通讯作者、迪肯大学的基因组生物学研究者 Mark Ziemann 从今年年初开始持续对期刊中的基因数据进行观察,并每月发布一份数据错误清单,很多知名期刊都是这份名单上的常客。Ziemann 在 The Conversation 网站上撰写了一篇评论文章,表达对现状的痛心。他指出,如此大量的错误影响广泛而严重,不仅反映出研究人员缺乏对此问题的重视和相关技能,还反映出期刊论文的同行评审存在严重疏忽,这意味着更多的错误可能潜伏其中。

画蛇添足

自动更正或类型转换功能会导致基因组名称错误,这个问题并非最近才被发现。早在 2004 年,《BMC 生物信息学》(BMC Bioinformatics)上就有研究指出,至少有 30 个人类基因和蛋白质名称会受到 Excel 软件的日期转换影响。浮点格式转换可能引起的基因标识符错误更是高达 2000 多个。并且由于 Excel 不保存修改历史,这些转换是不可逆的,原始的基因名称无法恢复。

受到影响的字符串主要有两类:

1. 本书名称与特定日期格式恰好相符。如名为“MARCH1”,“SEPT1”、“Oct-4”的基因,会被 Excel 当作 3 月 1 日、9 月 1 日、10 月 4 日等日期,转换为日期数据。

2. 唯一的英文字母为“E”或“e”,其前后均为数字。这类字符串巧合了浮点计数的格式,会被 Excel 自动转换为有效数字在 [1, 10) 间的浮点数字(科学计数法),如“2310009E13”会被转换为“2.31E+19”。


一些基因名称会被 Excel 识别为日期,自动修正变成了“自动出错” | 科研圈

Ziemann 的团队在 2016 年就进行了一项调查研究。他们编写了一套脚本,分析了 2005 到 2015 年间发表在 18 本不同期刊上的 3597 篇论文所附的 7467 个 Excel 补充数据文件(.xls 和 .xlsx 后缀),发现其中 704 篇论文的共 987 个补充文件中存在基因名称错误,出错比例达到了 20%。

基于 2016 年的这一研究报告,国际人类基因组组织(HUGO)基因命名委员会(HGNC)于 2017 年宣布修改一些基因名称,以避免被 Excel 误判为日期格式。共有 27 个基因名称得到更新,如“SEPT4”被改为“SEPTIN4”,“MARCH1”被改为“MARCHF1”。

30 个左右的基因在人类基因组约 44 000 个基因中只占一小部分,这些错误似乎不太可能动摇任何特定基因组研究的结论。但 2010 年美国杜克大学(Duke University)曾有研究报告表达了担忧——在商业和金融领域,电子表格中的微小错误可能导致一系列交易失误,最终导致股市崩盘,基因组学和其他数据密集型科学领域也是如此。哪怕仅仅一个基因数据错误,都可能导致数据列表全部错位一行,彻底改变基因组分析结果。

澳大利亚悉尼大学的分子生物学家、已经使用基因微阵列和基因转录数据在牛羊疾病领域进行了 20 年研究的 Auriol Purdie 也认为这一错误对她的研究产生了重大影响。她表示,自己很容易发现由于格式转换而发生的基因数据丢失,但 Excel 程序并不能自动帮她找到具体是哪些基因数据出了问题。手动在包含多达 2 万条数据的基因表格中逐一寻找丢失的基因成为了研究工作中无比繁重的负担。

愈演愈烈

出乎预料的是,在学界意识到 Excel 的自动更正导致的严重错误,且 HGNC 进行了基因更名后,这一问题并未被解决,甚至有愈演愈烈之势。Ziemann 的团队 2016 年对过去十年的论文数据进行的统计调查得出的错误率尚为约 20%,而今年对 2014 年到 2020 年的相同调查得出的错误率却高达 30%。


科研圈根据 Mark Ziemann 的数据制作。数据来源:Mark Ziemann / The Conversation

欧洲生物信息学研究所(European Bioinformatics Institute)的 HGNC 联络人 Elspeth Bruford 认为,凭此错误增长就得出更名无用的结论或许为时过早,因为更名的影响还需数年时间来渗透到学界,在论文和数据表中体现出来。但即使更名的作用完全与预期相符,她也并不对该问题的解决持完全乐观的态度。更名与 HGNC 倾向于保持基因名称稳定的初衷背道而驰,仅靠更名也并不能完全解决 Excel 误改的问题——巧合了 Excel 日期的基因得到了更名,但与浮点计数格式撞上了的基因并没有得到更名。

Bruford 认为,这一问题很难通过 Excel 更新得到解决。基因研究领域的用户群只占了 Excel 所有用户中微不足道的一部分,并且微软也表示“Excel 的默认设置旨在满足大多数用户在大多数情况下的需求”,不会为了遗传学领域的用户对软件进行修改。对基因相关领域的研究者来说唯一一劳永逸的解决方案可能是转用其他工具,脚本化的计算机语言如 Python 或 R 是最佳选项。这些语言不但能避免画蛇添足的自动更正,本身功能也远比 Excel 强大——能够提供更强的分析技术,具有可重复性和可审核性,并且允许更好地进行版本管理,区分不同作者的贡献。

尽管好处是显而易见的,但转用编程语言进行研究对很多研究者们来说门槛或许太高了。Purdie 表示,她早已适应了 Excel 的“怪癖”,养成了在会受影响的基因名称前加上半个单引号来防止自动转换的习惯。比起学习编程语言所要耗费的巨大时间和精力,这样的小麻烦是她“能够妥协的事情”。她还会在共享和发布数据之前按基因名称对数据进行排序——这至少会让被错误转换为日期的基因排在首位——来进行快速检查,这与 Ziemann 对坚持使用 Excel 的研究者的建议一致。

Ziemann 仍坚持转用编程语言的重要性,“它们最初可能很难学习,但从长远来看,所能带来的科学益处是值得的”。他强调,“数据密集型领域(尤其是生命科学领域)的研究者需要更好的计算机技能”,对于遇到学习困难的研究人员,相关机构应提供基本代码技能的指导,就如志愿项目 Software Carpentry 正在做的。除了研究人员,大学也应更多地为本科生提供所需的高级分析技能课程。

参考文献

[1]https://theconversation.com/excel-autocorrect-errors-still-plague-genetic-research-raising-concerns-over-scientific-rigour-166554

[2]https://www.nature.com/articles/d41586-021-02211-4

[3]https://genomebiology.biomedcentral.com/articles/10.1186/s13059-016-1044-7

[4]https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1008984

[5]https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-5-80

[6]https://www.genenames.org/news/newsletters/2017/05/10/HGNC-Newsletter-Spring-2017/

[7]https://www.deakin.edu.au/about-deakin/people/mark-ziemann

[8]http://ziemann-lab.net/public/gene_name_errors/

[9]https://www.nature.com/articles/nm0610-618a

[10]https://www.bbc.com/news/technology-37176926

本文经授权转载自科研圈(ID:keyanquan),如需二次转载请联系原作者。

欢迎转发到朋友圈。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关阅读
#头条资讯

"70后"工学博士空降海南 任职当日即参加重要会议

据海南新闻联播消息,12月30日,海南省六届人大常委会第二十五次会议表决决定,任命王斌为海南省人民政府副省长。政知见(微信ID:bqzhengzhiju)注意到,30日,海南省有两场重要会议。一是海南省委经济工作会议;二是省政府专...

#杂志目录

《共产党人》杂志2021年04期最新目录订阅

目录卷首语丨贯彻新发展理念 融入新发展格局 在新发展阶段全力开创新局当时光的航船驶入农历辛丑牛年,新时代中国开启新的篇章。 新发展阶段,新征途,新气象。2月20日下午,全区领导干部学习贯彻党的十九届五中全会精神专...

#头条资讯

上汽海外逆袭凭什么?走“三高”路线抢占发达市场

8月28日上午,约2500辆MG、大通品牌的汽车密密麻麻停放在码头上,它们即将登上两艘巨大的海轮,乘风破浪前往澳大利亚、新西兰和斐济。上海汽车国际商贸有限公司副总经理赵爱民记不清这是今年第几次往海外发运车辆,无论今年1月...

#杂志封面

《山西文学》杂志_山西文学2023年05期杂志封面

《山西文学》杂志_山西文学2023年05期杂志封面

#杂志封面

《幼儿教育·父母孩子版》杂志_幼儿教育·父母孩子版2023年01期杂志封面

《幼儿教育·父母孩子版》杂志_幼儿教育·父母孩子版2023年01期杂志封面

#杂志目录

《人民周刊》杂志2021年17期最新目录订阅

目录金台观潮丨让“金钥匙”更加闪亮九月北京,“热度”不减。2日至7日,2021年中国国际服务贸易交易会(简称服贸会)在京举行。在全球疫情持续蔓延、国际贸易形势严峻复杂的背景下,如期举办服贸会不仅为全球服务贸易提供新平...