游客,您好,欢迎您进入科技信息监测服务平台! 登录 | 注册  帮助中心
您当前的位置: 首页 > [2023年第22期]情报条目详细信息

编译内容

编译服务: 科技出版发展智库 编译时间: 2024-3-7 浏 览 量: 7

摘要:资助者、出版商、学术团体、大学和其他利益相关者需要能够跟踪旨在促进数据共享和再利用的计划和政策的影响。随着美国国立卫生研究院(NIH)数据管理和共享政策在2023 年出台,建立政策出台前的共享和重用活动基准对于生物和生物医学界来说至关重要。为了实现这一目标,研究测试了提及研究资源、数据库和资料库(RDR)作为数据共享和重用的替代衡量标准的实用性。研究采集并处理了2020年和2021年发表的、可在PubMed Central上获取的开放存取生物和生物医学研究文章中“方法”部分的文本,使用自然语言处理技术来识别文本字符串,以衡量RDR的提及率。在文中提供了该社区数据共享和重用活动的规范化基准,并强调了作者和出版商可以采取的鼓励数据共享和重用实践的行动。

引言

在过去 20 年中,越来越多的人认识到共享和再利用研究数据的益处:提高研究透明度、支持严谨性和可重复性、促进创新以及最大限度地提高研究经费投资的经济回报 (Vasilevsky et al., 2013; Beagrie & Houghton, 2014; Menke et al., 2022; Starr et al., 2015)。大多数研究人员希望共享和重用数据,但却没有时间、资源、动力或方法来推动这一事项 (Hahnel et al., 2020),而且生物和生物医学领域研究人员之间的数据共享和重用率差异很大(Park, 2022)。美国国立卫生研究院数据管理与共享政策(NIH Data Management and Sharing Policy)进一步要求在生物和生物医学领域推行数据共享和再利用。

学术团体在促进和实现研究人员之间的数据共享和再利用方面发挥着至关重要的作用 (Maienschein et al., 2018; Ruediger et al., 2022)。美国实验生物学学会联合会(FASEB)最近推出了DataWorks!(FASEB, 2021),这是一套旨在促进、支持和奖励整个生物和生物医学科学领域数据共享和再利用的计划。2022年,FASEB出版物同样开始要求作者提供数据可用性声明,并要求引用数据,作为鼓励数据共享和重用的第一步。为了评估这些计划的影响,FASEB认为有必要建立一个基准,并监测数据分享和再利用随时间推移而发生的变化。

一个主要的结构性挑战是如何衡量数据共享和再利用做法的采纳情况。一种做法是检查数据可用性声明。在研究期间,约有20%的生物医学预印本和出版著作包含此类声明,但只有极少数描述了可公开获取的数据(McGuinness & Sheppard, 2021)。

另一种探索是检查研究文章参考文献列表中的数据引用情况(Parsons et al., 2019)。 作者可以引用自己收集的数据,也可以引用从其他来源获得并重复使用的数据。目前已经制定了数据引用标准,并尝试使用统一的标准和政策 (Altman & Borgman, 2015; Cousijn et al., 2019; Data citation principles, 2016; Hrynaszkiewicz et al., 2020)。例如,研究人员可将其数据集存入存储库,并获得唯一标识符(DOI),以便于引用和发现。DataCite Event Data可用于跟踪这些数据集的引用情况(DataCite,2022)。

虽然数据引用基础设施已经存在,但数据引用实践的采纳在生命科学领域才刚刚兴起(Robinson-García et al., 2016)。研究人员开始将他们的数据存放在资料库中,而出版商实施引用实践的做法才刚刚起步(Cousijn et al., 2018)。2022年8月,使用DataCite Event Data API进行的查询显示,2020年在DataCite注册的“数据集”有5854个DOI,其中至少有一个被引用,这些DOI大部分是由包括学科预印本服务器在内的文献库和展示教师作品的大学文献库(而非出版商)在发表后注册的。相比之下,整个2020年DataCite活动集的引用次数超过100万次,其中95%以上与单一的资料库有关。DataCite及其合作伙伴最近推出的开放式全球数据引文语料库将包括DOI和非DOI数据引文,这将大大有助于解决这些问题(Vierkant, 2023)。

因此,我们决定测试数据分享和重用的另一个早期指标,该指标可用于建立基准,并在采用更正式的引文基础设施时使用。作者在期刊论文的“方法”部分提到了研究资源、数据库和资料库(research resources, databases, and repositories,RDRs)(Park et al., 2016),并且已经有一些工作通过结合正式引用和非正式引用出版物文本中的数据来跟踪数据共享和重用实践(Park & Wolfram, 2017)。RDR是对许多研究的数据进行整理的结果,包括 Cochrane Library和PsychInfo等书目数据库;ATCC和AddGene等试剂数据库;Ensebl和 Pfam等研究数据库;以及Cytoscape和MaxQuant等研究软件数据库和资料库。研究假设是,如果还不能测量单个数据集的引用情况,也许可以通过测量RDR引用情况来了解数据引用基础设施的潜力。

我们描述了一种测量生物医学数据共享和重用的方法,该方法将使用工具挖掘自由文本中RDR的提及量和由RRID项目使用、持续开发的生物和生物医学研究资源的SciCrunch数据库(Bandrowski et al., 2015) 结合起来。我们介绍了该方法和描述性统计,并讨论了该方法在评估 RDR 提及量的总体情况以及按资源类型、期刊或学科进行更细化衡量方面的实用性和局限性。

方法

在确定期刊论文参考文献列表不是数据引用的可行来源后,我们决定将重点放在对“方法”部分的文本分析上。虽然作者可能会在论文的其他部分列出研究资源,但我们将重点放在“方法”部分。从PubMed索引的文章中获取生物和生物医学期刊论文的“方法”文本,这些文章在2020年和2021年可在PubMed Central Open Access 集中找到(NLM, 2022) 。就本研究而言,可挖掘文本既取决于出版物的许可,也取决于其期刊是否使用了标准标记语言 (JATS, the Journal Article Tag Suite) ,以便对出版物的各部分进行标记,从而方便查询 (Mietchen, 2015)。根据EuropePMC的数据,2020年共发表1,638,399篇文章,其中625,338篇(38%)的“方法”部分可进行文本挖掘。

我们确定了一个独立的SciCrunch RDR子集,将其纳入本项目。我们审查了SciCrunch 数据库中按引用次数排序的前1000个条目,删除了组织机构(如没有相应RDR的大学)或非相关工具(如参考文献管理器)的条目,更新了链接,并合并了因RDR合并和名称变化而产生的重复条目。最终得出的737份RDR列表。

根据RRID倡议方法提取RDR (Bandrowski et al., 2015) 。按照Ozyurt 等人的描述,采集SciCrunch数据库中列出的RDR的URL或名称的提及。该数据集由PubMed Central中的文章扩充,但不包括作者在期刊出版过程中输入RRID的OA子集。为确保采集数据的完整性,我们进行了统计检验,以确定RRID引文是否与算法发现的引文一致。通过人工核查并删除了不准确的异常值,然后对使用率进行统计调整。

结果

从挖掘出的方法文本中,我们提取了提及RDR的内容,并在RDR(由RRID编号表示)和提及该资源库的文章(PMID编号)之间建立唯一关联。此产生的2020年数据集包括 95,430条唯一记录对、66,187篇唯一文章和616份唯一RDR;2021年数据集包括110,048 条唯一记录对、75,532篇唯一文章和619份唯一RDR。我们为每一对关联建立一条记录,其中包括:

●RDR的RRID编号、RDR的名称。

●文章的PMID编号、出版物标题、DOI、出版日期和片段(作者描述资源库的句子的相关部分)。

●期刊名称、期刊ID、期刊ISSN和(或)期刊ESSN。

讨论

研究结果表明,挖掘期刊论文方法文本中的RDR不仅可行,而且还能提供有用的信息,帮助社区衡量数据共享和重用实践的早期采用情况。虽然数据共享和重用并没有被普遍采用,但在广泛的生物和生物医学文献中,这种做法比DataCite或引文实践可能走得更远。首先,利用这种方法,可以表明作者已经开始使用RDR,并按RDR类型和研究领域对这种活动进行量化。如果能为研究人员提供更多有关如何共享和重用数据的信息,以及更多捕捉数据提及的工作流程,就能够获取更多作者在文章中提及数据和RDR。在生物和生物医学界更广泛地采用数据引用实践之前,可以使用这种方法来实际应用Scholix等工具,结合期刊作者指南和资助者政策,都是实现研究数据共享和重用实践这一目标的必要组成部分。

出版商、期刊编辑和政策制定者有几种选择,可以根据这些发现采取行动:

●可以向所有利益相关者保证,数据共享和再利用已经在进行,而且可以在文章的“方法”部分对其各个方面进行跟踪。

●出版商和期刊可以鼓励作者使用包括RRID在内的标识符,以改进对RDR和其他关键资源的明确引用。

●期刊可以使用该方法来确定RDR的最高提及率,并在其作者指南中针对这些特定资源向作者提供有针对性的建议。

●期刊可以通过数据共享与再利用政策和工作流程,包括数据引用的具体指导,鼓励作者的RDR引用行为。

●出版商可以结合DataCite事件数据和(或)Scholix类型的方法,继续定期评估RDR提及情况,作为跟踪数据共享和重用行为采用情况的早期指标。提供文章和期刊级别的数据引用汇总结果可能有助于促进作者采用数据共享和再利用实践。

●政策制定者可以使用各种指标来了解和跟踪研究界对数据共享和再利用行为的采用情况,从而监控其政策的影响。我们建议将RDR的提及率作为衡量合规性和确定是否需要调整政策的一个因素。

●研究基础设施提供者可以利用各种参数收集和共享数据共享和再利用信息,如Open Global Data Citation project的情况,以支持社区了解良好做法,并促进对参与数据共享和再利用活动的研究人员的认可。

..............................................................................................................................................................................................

标题:Establishing an early indicator for data sharing and reuse

来源:https://onlinelibrary.wiley.com/doi/full/10.1002/leap.1586

翻译:刘晶晶

  
提供服务
导出本资源