临床试验数据的合作网络研究
r cooperation mechanism. We found that through the complex network analysis method, alone and joint analysis of two cooperation networks, can have a more comprehensive understanding of this field, deeply understand the cooperation model and characteristics of clinical trial research. 科研合作网络研究,对于分析科学领域合著网络结构与特性从而发掘优秀科研团队和核心位置有着重要的意义,随着开放科学数据仓储的快速发展,科学家们可以不受时间地理的限制进行各方面的合作,基于科学试验数据的新兴合作网络将会受到越来越多的重视。研究科学合作最常用的方式即根据出版物中元数据来提取合作关系,元数据包括作者,机构,期刊,日期等题录信息,还可以通过问卷调查、定性访问或者三种方法的任意混合,但是每一种方法对合作关系的研究都存在一定的限制,使用合作作者来研究合作网络可能会存在高估或者低估的现象[1],仅仅通过传统论文信息探究合作网络已经不能很好地反映一门学科的发展,因为在发表论文之前首先进行的是科学试验合作,科学试验数据已经成为非常重要的信息资源,能从中挖掘到丰富的信息。由此想到科学试验合作网络与论文合著网络是否存在差异;合作科学试验的机构是否会合作撰写论文;通过研究科学试验合作网络能否完善科学合作网络的信息。本文基于ClinicalTrials.gov网站的临床试验数据库,通过爬虫抓取了该网页所有的研究,提取每个研究的传统论文信息以及临床试验信息的元数据,构建科学试验合作网络以及论文合著网络,从而比较他们的异同。一、研究综述(一)科学数据资源库科学数据资源库如今被使用的非常频繁,尤其在网络高速公路出现后被广泛的讨论,但是很少有准确的定义,虽然如此,科学家们对其的功能和特征都有一种隐式的共识——即通过收集、注册、观察和创造得出的各种实验数据、观察数据、统计数据等,以表格、数字、图像、多媒体等各种格式为表现形式。它可以是论文后附带的实验数据,也可以是独立的研究数据,包括对数据进行描述的元数据、数据集以及数据相关的出版物[2]。它还可以提供额外的数据服务,包括访问、导入、导出、处理、回档以及跟踪和链接到出版物或外部网站等[3],这些数据是免费的,且在获取、复用上没有知识产权或其他机构的限制,完全处于数据拥有者自己的意愿[4]。近几年,开放科学数据得到越来越多的重视,很多国家、机构、大学都在建立开放的科学数据资源库,目的主要是进行数据的复用与共享[5][6]。很多开放科学数据资源库要支持一整个领域,所以采用了复杂的技术去运行和维护,这就意味着科学数据仓储的成本高昂,因此这些数据仓储有很强烈的意愿被使用,在国家政策和法规的支持下被广泛推广,由此科学数据仓储正在影响着科学研究的共享行为,影响着科学合作行为[7][8]。例如,资源型数据库有物理学领域的LIGO数据网格,用来支持激光重力波观测试验,它的激光重力波观测协作(LIGO Scientific Collaboration LSC),约有500名科学家参加,其数据对外公开服务。在地球空间科学领域中,美国国家基金会(NSF)和美国国家海洋局(NOAA)资助的CODIAC数据库为地球物理研究提供服务[9]。典型的参考型数据库包括蛋白质数据库PDB、美国国立卫生研究院的基因序列数据库GenBank、法国斯特拉斯堡天文数据库SMBAD、欧洲分子生物学实验室的核苷酸序列数据库EMBL等[10]。这些数据资源存储库的使用对科学工作影响的程度以及对科学家们、合作机构合作行为的影响程度都是未可知的,在我们探究这些数据仓储的出现对各个领域科学家合作行为的结构和规模的影响之前,首先要回答更加基本的问题——科学家们在使用这些数据库时进行科学试验合作的结构特点是什么?(二)复杂网络分析合作网络结构和规模的研究涉及到网络中的组成成员、领域内的相互关联、团队的大小等,因此研究合作网络的结构和规模最常采用的方式是复杂网络分析,其中最为著名的就是Albert, Baraba´si, and Newman。Barabasi 等对合著网络随时间演化的现象进行研究[11],2001 年 Newman 利用社会网络分析法(SNA)对合著网络的研究发现一个科学家只需经过五到六个人就可以与其余任何一个科学家取得联系,科学界似乎形成了一个“小世界”[12],Yang H 等[13]发现,个体节点通过和高密度的邻近节点建立联系能够构建一个强强联合的网络。Abbasia 等[14]研究了科研合作网络的变化趋势。在概念上将科学家或机构看成一组平面的点,将彼此之间的社会关系看成点与点之间的连线,已被证明是学习科学的社会性质有用的方法。由此产生的网络可以进行数学统计分析,从而通过宏观分析提供整个科学领域更丰富的描述、介观分析群体之间的特征、微观分析个体在整个领域的突出作用。Laudel将科研合作定义为“一项由多个参与者进行系统合作,以达到研究的目的,从而获得相应的收益”的研究活动[15],现如今合作已经成为科学生产力发展的主要动力。本文探究机构的科学合作网络是一种描述机构之间科研合作关系的复杂网络,将科研合作抽象成一个网络,机构作为结点,机构之间的关系作为边,用来描述机构之间相互影响的关系。如果2个机构合作发表过1篇论文,就把这两个结点用一条边连接,对于一定范围内的科研合作情况进行考量,最终会生成一个描述科研合作关系的复杂网络。本文从科学数据资源库中提取两个合作网络,一个是在ClinicalTrials.gov网站注册的临床试验的机构的合作网络,另一个是基于这些试验发表论文的机构的合作网络。(三)数据集合作网络研究学术界对科学合作的研究成果比较多,但是绝大多数限于以科学论文作为研究对象,现在对合作网络的探究开始进行了突破,不仅仅再基于出版物的元数据,开始面向专利,数据仓储等,比如Meyer和Bhattacharya首次将专利文献与论文进行比较,虽然两者存在很多不同点,但是在计量上其实有很多相似之处,可以将论文计量的思路同样利用在专利上[16]。Singh[17]通过对专利的合作网络的探究得出专利合作对于未来信息流动起到推动作用的结论。但是目前,不管是国内还是国际上,关于数据集合作的研究文献非常少,2016年Mark R. Costa[18]基于GenBank探究了在大型数据仓库中进行元数据追踪,从传统出版物的合作和数据集的合作中分析了合作模式。陈晓燕[19]构建了WEB数据集和论文合著SCH数据集并加以实证比较分析。由此本文也想到将论文计量运用在数据集计量上,因为他们同样拥有数据持有者,合作者,研究人员等元数据。二、研究方法(一)具体方法本研究运用计量学指标,对ClinicalTrials.gov网站注册的临床试验和基于试验发表的论文等情况进行分析;运用Python编程完成原始数据向netdraw所需网络文件的转换和基本统计指标的计算;运用python生成合作试验机构与论文合作机构的共现网络文件,并转化为相应的合作网络文件,采用ucinet软件处理上述合作网络并计算各项指标。本研究涉及到的方法包括文献计量法、数理统计法、社会网络分析法(SNA)。 (二)数据来源研究科学合作最常用的方式即根据出版物中元数据来提取合作关系,元数据包括作者,机构,期刊,日期等题录信息,基于此来研究合作网络可能会存在高估或者低估的现象。在临床医学领域低估是因为科学家们经常会在名义上非正式的合作,接受来自同行的反馈和帮助,例如和其他机构非名义上的合作进行临床试验但论文中并没有体现;高估是因为作者会夸大合作,特别是当合作关系是更为有名气的科学家,通过利用该科学家的知名度来提高出版物的知名度,但实际可能并没有合作进行试验只是参考了其相关数据。因此精确地理解合作机构和任两位科学家合著的论文之间的关系,将变得更难。由此,我们想到——从存储临床试验的数据库中提取元数据相比于仅仅提取出版物的元数据,是否使得合作研究更加精确,是否出版物的合作网络与科学研究数据库的合作网络存在一定的差异。针对上述提出的问题,我们选择了ClinicalTrials.gov网站作为数据源。ClinicalTrials.gov网站是由美国国家卫生研究院和美国国立医学图书馆共同开通创办的全球最大的临床试验登记网站,提供了由企业或政府申办的最新的有关临床试验的情报,全球范围的临床试验都在该网站进行事前注册,即可通ClinicalTrials.gov网站检索到全球正在进行的独立开展或参与国际多中心临床试验[20]。但是并不是所有的试验就会在该网站进行注册,加上clinicalTrials.gov网站经常在不断更新,因此本次分析的数据是在2016年11月19-24日下载的全部试验,该网站提供研究目的、研究类型、提交时间、赞助信息、NCT代码、合作机构以及相应的发表的论文等信息。(三)数据收集ClinicalTrials.gov网站允许抓取(https://www.clinicaltrials.gov/robots.txt),而且可以通过适合抓取的网站模式进行综合、无重复抓取(https://www.clinicaltrials.gov/ct2/crawl)。这是2016年11月19-24日通过python爬虫抓取的,编写了一个从每份记录中提取合作机构和出版物相关信息(和其他信息)的程序,将网站上所有注册的数据都进行了下载。该网站共有有232840项临床试验,最新提交的研究为2016年11月21日,其中只有23551项试验提供了相应的研究结果,209059没有提供结果的试验中包括正在进行招募的,试验正在进行中的或者由于研究人员的意愿没有提供的,经过清洗(除去重要信息缺失、重复、状态不明确的信息)得到227503条数据,对所有数据进行了描述性分析。同时将检索范围定为在ClinicalTrials.gov网站上首次提交时间(First Received Date)为2008年至2016年的全部注册的临床试验,共有182065 条注册信息,对其进行合作网络分析。由于试验记录中的出版物以及合作机构可以由上传者输入,也可以按照参考号找到应用研究的实验,由ClinicalTrials.gov完成自动插入,自动添加的引用不太可能影响试验,剩余的是由上传者自行决定,因此可能会存在一定的误差,我们对2008-2016年的数据进行清洗、规范化,最终获得164758条有研究价值的注册信息,其中提供了相应出版物的有45459条,参与合作(至少与一个机构合作的)的有58954条。基于出版物数据以及科学数据库之间的差异,本文提出了以下几个问题(1)除了在标准参考文献格式中提取的合作信息,从科学数据库中是否能够提取更加丰富的合作元数据;(2)基于研究发表的出版物的合作网络与临床试验的合作网络是否存在结构上的差异。针对上述问题,本文通过描述性统计、网络密度、网络平均距离、点度中心性、中介中心性等指标来进行研究。三、试验项目基本合作情况(一)试验合作网络的基本数据我们对整理后的数据进行研究与分析,通过统计和计算经过预处理的原始数据集,最终得到了2008年-2016年在网站上提交的数据集合作网络的基本数据,这些指标分别是机构数目、连边数目、提交试验数目、平均试验数目、平均度、网络密度、网络直径、平均路径长度、以及平均聚类系数。我们使用了ucinet计算出具体的数值以便于进行分析,详细信息如下表1。表1 2008年-2016年试验项目合作网络基本信息概要20082009201020112012201320142015201608-16Number of Institute3013664234334925406597486433484Number of edge370837444994522858306752873811300821299012Number of Submissions15071529180317771902203925112653247118192Submissin per Institute54.24.34.13.93.83.83.53.85.5Avg. degree24.6420.4623.6124.1523.725.0126.5230.2125.5456.84Graph density0.04130.02820.02810.02810.02420.02330.02020.02030.020.0082Network Diameter688899109912Avg. Path Length2.9893.2333.4173.873.6353.6023.5693.6063.8033.35Avg. Clustering coefficien0.0690.4890.4860.5010.4820.5020.4820.5040.5070.4691.机构数目(Number of Institutes)考虑到数据规模不能太大而超过所选软件的处理能力,也不能小到无法分析其统计性质,因此本文选取了2008年至2016年期间并且合作机构共现频次大于2的合作数据,数据经过预处理后,我们获得了9组数据集,其中每组具体的节点数见表,机构数即节点数,每年的节点数均在300到700之间,去掉重复的共有3484个节点,由于数据收集截止到2016年11月21日,因此2016年的数据并不完整,但是通过前几年的趋势能发现每年的提交试验的机构数是逐年递增的,临床试验的项目合作网络规模在不断地扩大。2.连边数目(Number of edge)相比于机构数目,网络的连边数目则跨度较大,在 3000 到 12000 之间。对其进行可视化,选择可以从图1中一目了然看出其中差异。2015年的图像最为致密的,而2008年最为稀疏,密度也是逐年变化。这种巨大的差异会直接体现在平均度等其他属性中。/图1 数据可视化图像3.网络的平均度(Avg. degree)指网络中全部节点的度数的平均值。度是网络的最基本概念,得到网络中每个节点的度值就可以获得整个网络的一部分性质。平均度的表达式如下K=2????????其中,M 和 N 分别表示边的和节点的数目。对于复杂网络而言,网络密度有着特别的意义,实际的大规模网络在网络密度上有一个共通的特征,即网络的稀疏性,每年的平均度的变化也可以看出随时间的变化网络疏密程度的变化,这与连边数据是相对应的。4.网络密度(Graph density)网络密度是指一个网络的稀疏紧密程度,可以从表中看出2008年到2016年网络密度在0.02-0.05之间,可见这9组数据集的网络较为稀疏,团队合作紧密度一般。但是从总体上看2008年到2016年的整个合作网络,网络密度为0.0082,明显小了很多,也主要是因为网络规模变大后,密度自然变小。5.平均路径长度(Avg. Path Length)在表1中,我们发现每年平均路径长度在2到4之间,总体为3.35,这说明临床医学实验领域中,任意一个机构都是可以通过很少的中间人(2-4个左右)到达其他任意一个机构,这种机构间紧密的关系可以用平均路径长度表现出来,如果合著网络的平均距离小于9,那么可认为该网络具有小世界效应,说明该领域信息畅通性强,科研人员合作交流渠道较快捷,信息传播速度较高。但是随时间的变化,平均路径在不断变长,主要的原因是越来越多的机构参与到合作中来,网络的规模在不断地扩大。6.平均聚类系数(Avg. Clustering coefficient)聚类系数是社会网络的最重要拓扑属性之一,描述网络中的节点倾向于聚集到一起的程度,平均聚类系数则是所有节点聚类系数的平均值。根据ucinet提供的公式,导出8年网络的平均聚类系数。表1列出了相应的结果,可见10组数据集均具有较低的平均聚类系数,其中2008年的平均聚类系数最低,其他都在0.4到0.5之间,系数很相近,通过观察2008年的机构数以及连边数目,平均聚类系数不应该如此低,因此本文通过调查原始数据发现,2008年的合作的国家跨度很大,合作较为分散,结点的聚类系数都普遍低。(二)试验合作网络重要属性分析1.提交试验数以及论文数平均机构数通过对2008-2016年中至少合作三次的项目进行了合作规模的统计,不仅统计了每个试验的平均机构数,也统计了每篇论文平均机构数,以便于对比发现差异。表2列出了每年论文平均机构数和试验平均机构数,每年一篇论文的平均机构数均大于4,每年一个试验项目的合作机构均大于3,两个合作网络的变化趋势是类似,正验证了Newman等曾对此问题进行总结,归结其原因是该领域的实验科学研究与理论研究同等重要[21]。但是可以发现篇平均机构数和项目平均机构数呈下降趋势,表明机构之间合作的趋势在不断下降,说明在使用大型或复杂仪器的实验研究(如医学研究领域)中,合作现象是并不是普遍的,这与我们的预测不一样,因此后面我们将进行深入的研究分析原因。论文网络中一篇论文合作的机构最多达到16到34之间,而一个试验项目参与合作的机构数最大值在39到92之间,这说明在试验项目中存在着大范围机构合作研究的现象,而论文的合作范围则较小,这种现象与我们的直观判断是一致的,由于临床医学试验周期长,所需资源多,其合著范围较大。结合平局机构数的数据可以发现试验项目合作率虽然不如论文的合作率,但是一旦进行合作,则它的合作规模是很大的,这也是符合实际情况的。表2 合作文献(试验)中的平均机构数和最多机构数年份论文平均机构数试验平均机构数论文最多机构数试验最多机构数20085.35163920095.24.2233920105.84.3244120115.34.1223220124.93.9144320134.83.8126220144.83.8189220154.33.5344220164.93.832832.度分布网络中节点的度是指与该节点连接的边的条数,一个节点的度越大,越说明该节点在整个网络中与它连接的节点越多。从概率论角度解释,度分布P(k)是指对网络中节点度的总体描述,P(k)表示随机选取的节点度值为k的概率,使用Pajek软件的degree计算功能,得到试验项目合作网络的度分布如图2所示,度的范围跨越性较大,从2到722,并且主要集中在50以下,在该合作网络中,由图可知其分布具有明显的长尾特征。其度分布满足幂律分布公式,实际上,为了拟合不同的实际网络,幂律分布形式还有多种变形,包括幂律分布截断型(Power Law with Cutoff),指数型(Exponential),指数拉伸型(Stretched Exponential)等等。 Newman 等的研究发现,科学合作网络更加符合指数截断形式的幂律形式[22],即P(x)~ X-αe-λx(其中α和λ是常数)/图2 试验项目合作网络度分布对该分布进行幂拟合,得到如图3,拟合到幂函数的拟合度为0.845,从图6可以看出,同很多其他的科研合作网络一样具有无标度特性,表明临床医学领域机构试验合作网络会通过增添新节点而继续扩张,而新节点会择优连接到具有大量连接的节点上,从这个角度上说明少数的机构对于临床医学试验合作网络整体结构形成有重要作用,他们的研究方法、关注焦点的改变会对该领域的发展产生重要影响。比如说本文所研究的机构合作网络中,节点度数最高前三位分别是Johns Hopkins University(722)、University of California(708)、Massachusetts General Hospital(672),这三个机构在这个领域扮演着非常重要的角色。/图3 试验项目合作网络度分布拟合曲线由此想到基于上述试验而发表的论文合作网络的度分布是否与其存在差异,因此同样将论文的合作机构的数据导入Pajek软件中,使用degree计算功能,得到论文合作网络的度分布试如图4所示,可以发现横坐标与中坐标的刻度明显变小,说明论文合作网络规模比试验项目合作网络的规模要小,度分布的的跨度为2到184,远小于试验合作网络,但它同样具有长尾特征,同样符合幂律分布,同样具有无标度特性,节点度数最高前三位分别是Columbia University(184)、Massachusetts General Hospital(181)、University of California(177),可以看到论文合作网络和试验合作网络并不是一样的,论文合作较多的机构或者说在临床医学这个领域内学术成就处于中心地位的机构并不一定在试验项目合作中占据重要地位,在论文上经常进行合作的机构并不意味着经常合作临床试验项目。/图4 论文合作网络度分布总的来说,经过拟合后两个网络均呈现幂率衰减趋势,都具有无标度特性,说明他们都具备的关键特征度数较大的节点少,与大量度数低的节点接连,而度数较小的节点多,换言之,合作较多的机构联系紧密,合作少的机构之间的合作也少,并且这些机构会倾向于和经常合作的机构合作,从而形成了机构的等级层次。但是临床试验合作网络节点度数跨度很大,最大度数达到722之间,说明分化和抱团现象严重,存在着对临床医学领域影响力较大的机构并且经常性的进行合作;而论文对应的节点度较低,节点数对应最多的2,说明论文网络相对于试验项目网络不会存在严重的抱团现象,合作的可能性和选择比较多。四、试验项目合作与其发表论文合作情况(一)项目发表论文情况分析以科学杂志和学术论文作为知识量的重要量度指标,描述了科学发展速度,其中科学论文更是衡量“科学生产力”的重要指标[23],在ClinicalTrials.gov数据库中除了提供相关的实验项目信息,还提供了基于该项目所发表的论文信息,因此本文按照发表论文数进行递增排列,探究临床医学试验中发表论文的能力,因此本文按照发表论文数进行递增排列,探究临床医学试验中发表论文的能力。从表3中可以发现,有162512个项目数并没有发表相应的论文,占据了全部项目数的69.8%左右,这是相当大的比例,并且大部分项目发表的论文数集中在1-10篇,其中有很多合作规模较大的试验项目发表的论文不多甚至没有发表论文,例如Pfizer(目前全球最大的以研发为基础的生物制药公司)在ClinicalTrials.gov中提交了1174个试验项目,其中有803个实验项目没有发表任何论文,约占了68.4%左右,甚至有很多与多个机构进行合作的项目也没有提供任何论文信息,由此本文想到是否这部分试验发表了专利因此未有论文?经过网站调查,发现Pfizer和Bristol-Myers Squibb在网上合作的试验有19个,其中有14个都是基于Apixaban的临床试验研究,但是这14个项目中只有2个项目发表了论文,通过专利调查,发现Pfizer和Bristol-Myers Squibb在欧洲专利数据库中检索到其在2016年10月25日发表名为APIXABAN FORMULATIONS的专利,正是在试验提交时间的区间内。可见如果仅仅以论文合作情况作为元数据探究合作网络明显受到了制约。这也回答了为什么上文探究提交试验数以及论文数的平均机构数发现,合作率在下降,很有可能因为发表了相关专利,尤其是在临床医学这个非常重视专利和知识产权的领域。从另一角度还可以发现有部分项目发表的论文数非常多,如有发表了130篇以上的项目数有12个,平均一个项目发表约为11篇论文,可见一个项目带来的论文产量是如此之多,更加说明仅仅从论文的角度来衡量一个机构的科研能力和合作特点是以偏概全的。表3 不同论文数量的项目数分布论文数项目数论文数项目数论文数项目数016251514516289713021315416298725163793066386161736031-40610472851828441-50277536341926451-60140627022022161-7078718962121771-8049814452217681-9023910942317291-100121099224163101-110191183225140111-120121264326124121-13031358127135>13012(二)合作网络对比分析上述研究发现,如果仅仅通过研究论文的合作网络是很难精确探究科学合作网络的,因为很多试验项目由于商业性质,政府政策,个人因素等并没有发表相应的论文,尤其是临床医学这类领域,很有可能会以专利的形式展现试验成果,反过来有些机构一段时间内发表的合作论文很可能仅基于一次试验项目的合作。因此本文想到试验项目的合作网络和基于这些项目发表论文的合作网络是否存在异同,存在哪些异同点,下面将从网络密度,平均路径长度、中心性等角度进行分析。1.合作密度分析2008-2016年中有8275个机构共进行了180139项试验(删除了由于合作、转载、更正等造成的重复现象以及没有提供任何信息状态的现象),为了保证数据的准确性,筛选出其中参与合作共现频次大于2的机构有3484个,涉及到18192个项目,据此构建的ClinicalTrials.gov试验合作网络的网络密度为0.0082,平均聚类系数为0.469,密度较小,这是符合“大规模网络的密度基本较小”的说法的。我们删除了其中权重小于10的边,以及只有孤立的结点,一定程度上剔除了合作的随机性和偶然性,最终得到了177个结点,564条边的合作网络,见图6。/图5 ClinicalTrials.gov注册试验合作网络经计算,该网络密度为 0.0210,聚类系数为0.542,该网络呈现的是以部分度值较高的研究机构为局部中心点的紧密的、大范围和小范围都存在的合作关系,说明这些机构凝聚程度很高,发生合作的可能性很大,知识整合广度高。此外,与该核心网络相连通的节点还形成了以Johns Hopkins University、University of Washington、National Cancer Institute (NCI)等为局部中心点的合作小网络,同时网络周围还存在较多散在的合作对。8年中参与合作的有1649个机构共发表了45460篇论文(和上文一样进行了数据的清洗),构建的ClinicalTrials.gov论文合作网络的网络密度为0.0130,聚类系数为0.486,说明了医学信息学领域还存在一定的发展空间,仍需加强和扩大成员间的交流合作,以促进本领域的信息传播与成果共享。为了研究论文合作,同样我们删除合作次数小于10的边,以及只有孤立的结点,构建了包含25个结点,48条边的合作网络,见图6。/图6 ClinicalTrials.gov论文合作网络经计算,该网络密度为0.0104,密度较小,聚类系数为0.426,说明这些机构存在部分人联系紧密的合作团队,但相互之间缺乏广泛合作,知识政和广度和知识整合效率不高,合作模式单一,缺乏能够连接不同合著群体的桥梁作者,缺乏知识创新速度和可持续性的有力保障。2.典型小团体网络分析对这些网络进行局部研究,选取权重较大的前10的机构的合作网络图,发现两个网络在合作次数的形式上是类似的,如图8所示,这是合作次数最多的前三的合作团队形式,每个 Component中合作次数都大于25,因此我们认为这些团队存在较为固定的合作关系。在实验项目合作网络中,合作最为密切的是以NIH为中心与NICHD、NHLBI、NCI的合作团队,在论文合作网络中,却是两两机构合作的情况最多(更多的是机构内部的合作,这里不予考虑),其中合作最多次的是CNPq和Fundação de Amparo à Pesquisa形成的科研团队。虽然形式类似大多倾向同少数合作者保持非常频繁的论文以及试验合作,但是可以发现项目合作小团体与论文合作小团体有明显的区别。图7 合作最为密切的前三个合作团队通过k-核的分析,一些紧密团结在一起的群体,其中最大的一个群体是如下图中的3个,分别是9个机构,5个机构和5个机构,其 k 值为 8,说明当中的每个机构都至少与其他 8 人产生合作关系。团体9个机构的每个节点大小相当,并没有特别明显的核心人物,大部分合作者在网络中处于相同地位,频繁的合著试验。网络中第二大和第三大子群以seoul ational university hospital(首尔大学)和UMC Utrecht(荷兰最大的大学医疗中心之一)为核心的合作网络,可以明显的看出代表他们的中介中心度的颜色最深,因此他成为了两个团队之间交流的主要枢纽,在团队之间的信息交流中起到了重要的做用,如果他从网络中消失,则这个网络就会分裂。如果想了解近某一机构近一年的研究项目却没有直接的信息,可以设定具体的年限,通过了解合作小团体的其他机构研究的项目来进行推测,也可以通过这个方法了解不同方向上更具有实力的机构,比如Johns Hopkins University在2016之前经常与NIH围绕HIV的相关药物等方面进行临床试验合作研究,但2016年起开始和University of California合作进行同样方面的研究, 而University of California在2016年417个试验项目中有31个是有关HIV的,这已经占了比较重的比例,是否说明University of California将在HIV领域会有突破性进展?这些都是值得我们深入挖掘的。而论文合作网络以两两合作现象为主,可探究的信息相比试验项目合作网络要少很多,足以发现试验合作网络对一个学科发展的意义。/图8 k核值为8的三个合作小团体(三)合作网络中心性分析1.点度中心性点的度数中心性分为两类绝对中心度和相对中心度。绝对中心度是指与该点直接相连的点数,而相对中心度为前者的标准化形式[24]。如果某一结点的中心度较高,则说明该点居于中心位置。但是度数中心度的测量是与该点直接相连的点数,不同规模的网络不可直接对比,而相对中心度则是比较不同网络的结点中心性的指标。利用ucinet的Degree算法对两个网络进行分析,见表4(表中仅列出排名前10的机构)。表4 合作试验(文献)点度中心度排名试验机构DegreeNrmDegree论文机构DegreeNrmDegree1Johns Hopkins University360.0010.336Beijing Chao Yang Hospital 91.005.5222University of California, San Francisco353.0010.135Hospital Universitario Ramon y Cajal88.005.3403Massachusetts General Hospital335.009.618St.Josephs Hospital and Medical Center, Phoenix87.005.2794National Cancer Institute (NCI)320.009.187Harvard University87.005.279 5Columbia University315.009.044DokuzEylul University86.005.2186Duke University307.008.814Ministry of Health, Spain85.005.1587National Institutes of Health (NIH)292.008.384Shionogi85.005.1588Stanford University291.008.355Aurora Health Care85.005.1589Mayo Clinic286.008.211Flevoziekenhuis83.005.03610University of Michigan286.008.211 Seventh Framework Programme79.004.794从结果中我们可以看出,试验网络点度中心度最高的是Johns Hopkins University,其绝对点度中心度是360。根据点度中心度的定义,表明其与网络中其他360个节点有直接联系 ,即Johns Hopkins University曾与360个机构有过合作试验,其知识扩散能力强。点度中心度的大小即其边的连接数量,决定了它在整个网络中的位置,因此反映出了这些机构资源获取能力以及对整个网络的影响,可以看出Johns Hopkins University在临床试验的网络中的地位很高,很有可能由于其科研能力、设备水平、科研人员水平而使得其他机构愿意与之合作,其相对中心度为10.336,而在论文网络中Beijing Chao Yang Hospital的点度中心度最高,其相对点度中心度为5.522,前者远远高于后者,说明Johns Hopkins University居于试验网络中心的强度远大于Beijing Chao Yang Hospital居于论文网络中心的强度,即前者对试验合作网的支配能力可能大于后者对论文合作网的支配能力。同时,不同发表论文的机构的差别相较于试验的机构要小。将两个网络的同一机构的相对点度中心度进行了对比发现,合作试验多的的机构并不是合作发文多的,论文点度中心度和实验点度中心度不呈现显著相关(r=0.479,P >0.05),也就是说,说明合作论文的机构数量与合作试验的机构数量不相关。也说明相对于论文合作网,试验合作网的结构更接近于星型,少数机构占据了多数的试验相关资源,对该网络中的其他成员产生更多的影响。2.中间中心性在合作网络中,如果一个结点总是处于其他两点之间的路径上,可以认为该结点起着非常重要的作用,因为他具有控制其他两个结点之间的交往的能力。中间中心性就是用来测量的是这样的行动者对资源掌控的程度。同样对论文网络和试验网络进行中间中心性分析,见表5。表5 合作试验(文献)中间中心度排名试验机构DegreenBetweenness论文机构DegreenBetweenness1Fudan University 193788.2033.196Flevoziekenhuis203.2290.0152Pfizer183065.9693.019St.Josephs Hospital and Medical Center, Phoenix188.3520.0143KarolinskaInstitutet161705.3752.667Triemli Hospital166.6540.0124National Cancer Institute (NCI)161601.6562.665 Kangdong Sacred Heart Hospital164.0380.0125University of California, San Francisco148560.0472.450Naval Medical Research Center152.995.0116Canadian Institutes of Health Research (CIHR)142747.2972.354Beijing Chao Yang Hospital151.9540.0117Johns Hopkins University134332.2032.215Hospital Universitario Ramon y Cajal151.5760.0108Merck Sharp &Dohme Corp.130519.6642.152Catholic University, Italy141.7040.0109GlaxoSmithKline124497.7812.053University of Cologne140.2030.01010Massachusetts General Hospital119528.0781.971Daegu Catholic University Medical Center138.215 0.010首先是试验机构网络的中介中心度,最高的是Fudan University,其次是Pfizer、KarolinskaInstitutet、National Cancer Institute (NCI)等机构,这些机构的中介中心性比较高,说明他们掌握了很多的研究资源。同时表明该网络3484个机构的中介中心度呈现两极分化的趋势,离散程度非常高(Mean= 3647.827,Std Dev= 12617.284)。有一部分机构的中介中心度接近于0,共有302个,这些机构不具备控制资源的能力,占机构总数9.12%。其次是论文机构网络中介中心度,最高的是Flevoziekenhuis,St.Josephs Hospital and Medical Center和Phoenix Triemli Hospital紧随其后,同样两极分化现象严重,离散程度较高(Mean= 4.236,Std Dev= 21.302),其中中介中心度为0的有1514个,占总数1674个的90.44%,少于10的占91.63%。可以明显发现实验机构网络中中间中心性为0的机构比论文机构网络中要少很多,说明在论文网络中影响力较强的“中间人”机构较少,对网络中其他人的合作关系控制力强度不够,出现这一结果的原因,可能与临床医学信息学领域作者合著交流规模不广泛有关,也同样反映出专利存在的可能性。五、总结与展望(一)主要结论本研究通过对被ClinicalTrials.gov网站收录的临床试验数据的合作情况进行文献计量和网络分析,在探究试验项目合作情况的同时,对比分析了基于试验发表论文的情况,得出论文合作情况和数据集合作情况在合作文献量、合作率等计量测度以及密度、中心性分析、平均路径等网络测度上的异同,以期揭示出两种合作网络的区别和内部联系,从而为后续的科学合作和技术合作研究提供独特视角。主要结论如下1.项目合作总体情况2008年-2016年期间,临床医学领域内机构的合作规模以及平均每个机构所做的项目数呈现上升的趋势,但是试验项目的合作率却在下降,主要原因是提交临床医学的项目数迅速增加,导致基数过大,实际每年参与合作的项目是在增长的,合作的密度也在逐年增加,说明在该领域数据集的合作意识在不断加强,但是合作的广度欠缺,具有明显的抱团现象,主要依然以几个合作机构为中心进行合作,因为结点度数最多的机构并不是中心度最高的机构,说明合作次数最多的机构只与固定的几个机构进行合作,而不是进行广泛的合作,同时该网络依然和大多数科研网络一样具有幂律分布性质。2.基于论文合作网络对试验项目合作网络的分析现如今数据仓储的发展正在影响着科学合作的规模与结构,也在支持着跨国跨领域跨机构的合作。在临床试验领域中经常使用ClinicalTrial.gov来存储临床医学试验,并且这个网站允许科学家们上传和共享数据集同时提交了论文信息,现大多数的合作网络都是基于出版物的元数据,由此我们想到追踪该网站的元数据是否比仅使用出版物元数据能提供更多关于科学家合作行为的信息。有上文可以看出,这个假设是成立,例如基于中心性的分析,在两个网络中点度中心性和中间中性心排名前十的机构是不一样的,甚至差别很大,但是两个网络的度分布非常类似,合作次数最多的机构的合作方式也很相似,奇怪的是,合作项目最多的团体并不是合作论文最多的团体,如果仅仅通过论文来探究合作特征,就会出现很大的误差,尤其很多机构在试验项目中进行了紧密的合作,但是并没有发表相应的论文,可能选择了发表相关的专利,这种情况在临床试验领域中非常普遍。(二)研究意义与展望论文和数据集作为科学研究的两大产出,在计量学中,对论文和数据集的研究是平行的、可比的。目前,情报学界对基于数据集探究合作网络方面的研究还有待加强,本研究从网络分析层面初步解读了论文合作网和数据集合作网的差异,是论文和数据集的比较研究的一个新的尝试,也为该研究提供一个新的视角。由于笔者能力有限,在文献计量分析中,笔者只进行了合作量和合作率等分析,而在社会网络分析中,笔者比较了论文合作网和数据集合作网的基本网络测度,并对其网络合作模式进行了初步分析。随着网络计量学的发展,越来越多的网络测度出现,相信对数据集合作网的分析会越来越深入、具体,也能得出更多的共性和差异,为科学工作者提供一个参考。致谢感谢刘欢和刘睿伦同学在研究过程中的耐心帮助。参考文献[1] Costa M R, Qin J, Bratt S. Emergence of collaboration networks around large scale data repositories: a study of the genomics community using GenBank[J]. Scientometrics, 2016, 108(1):21-40.[2] 黄永文, 张建勇, 黄金霞,等. 国外开放科学数据研究综述[J]. 现代图书情报技术, 2013(5):21-27.[3] Marcial L H, Hemminger B M. Scientific data repositories on the Web: An initial survey.[J]. Journal of the Association for Information Science and Technology, 2010, 61(10):2029–2048.[4] 张晓林. 开放获取、开放知识、开放创新推动开放知识服务模式——3O会聚与研究图书馆范式再转变[J]. 现代图书情报技术, 2013, 230(2):1-10.[5] Pillai B. Cyberinfrastructure essential to 21st century advances in science and engineering education & research[M]. 2007(2):182-190.[6] By S T T, Tolle K. The Fourth Paradigm: Data-Intensive Scientific Discovery” Hey[C]// Microsoft Research. IEEE, 2015:1-5.[7] Faniel I M, Jacobsen T E. Reusing Scientific Data: How Earthquake Engineering Researchers Assess the Reusability of Colleagues’ Data[J]. Computer Supported Cooperative Work (CSCW), 2010, 19(3):355-375.[8] Faniel I M, Zimmerman A. Beyond the Data Deluge: A Research Agenda for Large-Scale Data Sharing and Reuse[J]. International Journal of Digital Curation, 2011, 6(1):58-69.[9] 傅小锋, 李俊, 黎建辉. 国际科学数据的发展与共享[J]. 中国基础科学, 2007, 9(2):30-35.[10] 刘闯, 孙鸿烈. 国际科学技术数据前沿领域发展研究[J]. 中国基础科学, 2003, 18(1):329-333.[11] A.L Barabási, Hawoong Jeong, Z Néda, et al. Evolution of the social network of scientific collaborations. Physica A: Statistical Mechanics and its Applications, 311(3), 590-614[J]. 2001, 311(3-4):590-614.[12] Newman M E J. Erratum: Scientific collaboration networks. II. Shortest paths, weighted networks, and centrality [Phys. Rev. E 64, 016132 (2001)][J]. Physical Review E Statistical Physics Plasmas Fluids & Related Interdisciplinary Topics, 2006, 73(3):039906.[13] Yang H, Wang W, Wu Z. Diversity-Optimized Cooperation on Complex Networks [J]. Physical Review E, 2009, 79(5): 56107.[14] Abbasi A, Hossain L, Leydesdorff L. Betweenness centrality as a driver of preferential attachment in the evolution of research collaboration networks ★[J]. Journal of Informetrics, 2012, 6(3):403-412.[15] Grit Laudel. What do we measure by co-authorships?[J]. Research Evaluation, 2002, 11(1):3-15.[16] Meyer M, Bhattacharya S. Commonalities and differences between scholarly and technical collaboration—An exploration of co-invention and co-authorship analyses. Scientometrics, 61(3), 443-456[J]. Scientometrics, 2004, 61(3):443-456.[17] Singh J. Collaborative Networks as Determinants of Knowledge Diffusion Patterns[J]. Management Science, 2005, 51(5):756-770.[18] Costa M R, Qin J, Bratt S. Emergence of collaboration networks around large scale data repositories: a study of the genomics community using GenBank[J]. Scientometrics, 2016, 108(1):21-40.[19] 陈晓燕. 学术数据集和WEB数据集下著者社会网络的比较研究[J]. 情报科学, 2014(5):66.[20] Thelwall M, Kousha K. Are citations from clinical trials evidence of higher impact research? An analysis of ClinicalTrials.gov[J]. Scientometrics, 2016, 109:1-11.[21] Newman M E J. The Structure of Scientific Collaboration Networks[J]. Proceedings of the National Academy of Sciences of the United States of America, 2001, 98(2):404-9.[22] Newman M E J. Newman MEJ. The structure and function of complex networks. SIAM Rev 45: 167-256[J]. 2003, 45(2):167-256.[23] 王文军, 袁翀. 社会科学学术论文生产力评价的新视角——C100指数的理念、构建方法及其初步测试[J]. 山东社会科学, 2015(2):186-192.[24] 邱均平, 瞿辉. 我国科研机构合作网络知识扩散研究——以“生物多样性”研究为例[J]. 图书情报知识, 2011(6):5-11.
目录
摘要 1
关键字 1
Abstrac 1
Keywords 1
引言 2
一、研究综述 2
(一)科学数据资源库 2
(二)复杂网络分析合作网络 3
(三)数据集合作网络研究 3
二、研究方法 3
(一)具体方法 3
(二)数据来源 4
(三)数据收集 4
三、试验项目基本合作情况 5
(一)试验合作网络的基本数据 5
1.机构数目(Number of Institutes) 5
2.连边数目(Number of edge) 5
3.网络的平均度(Avg. degree) 6
4.网络密度(Graph density) 6
5.平均路径长度(Avg. Path Length) 6
6.平均聚类系数(Avg. Clustering coefficient) 6
(二)试验合作网络重要属性分析 7
1.提交试验数以及论文数平均机构数 7
2.度分布 7
四、试验项目合作与其发表论文合作情况 9
(一)项目发表论文情况分析 9
(二)合作网络对比分析 10
1.合作密度分析 10
2.典型小团体网络分析 12
(三)合作网络中心性分析 13
1.点度中心性 13
2.中间中心性 14
五、总结与展望 15
(一)主要结论 15
1.项目合作总体情况 15
2.基于论文合作网络对试验项目合作网络的分析 15
(二)研究意义与展望 15
致谢 16
参考文献 16
表1 2008年2016年试验项目合作网络基本信息概要 5
表2 合作文献(试验)中的平均机构数和最多机构数 7
表3 不同论文数量的项目数分布 10
表4 合作试验(文献)点度中心度 13
表5 合作试验(文献)中间中心度 14
图1 数据可视化图像 6
图2 试验项目合作网络度分布 8
图3 试验项目合作网络度分布拟合曲线 8
图4 论文合作网络度分布 9
图5 ClinicalTrials.gov注册试验合作网络 11
图6 ClinicalTrials.gov论文合作网络 11
图7 合作最为密切的前三个合作团队 12
图8 k核值为8的三个合作小团体 13
基于临床试验数据的合作网络研究——以ClinicalTrials.gov网站的临床试验数据为例
引言
引言
原文链接:http://www.jxszl.com/jsj/xxaq/56578.html