"景先生毕设|www.jxszl.com

基于em指数及其衍生指数的学者学术影响力评价研究以园艺为例(附件)【字数:9884】

2024-02-25 17:05编辑: www.jxszl.com景先生毕设
该文利用文献计量学中现有的理论和指数,以大学园艺学院的学者们为研究对象,尝试利用EM指数及其衍生指数进行学者学术影响力评价研究。EM指数是在对h指数、e指数和多维h指数的优劣加以讨论的基础上,试图综合它们的优势,提出的更全面地反映h核心中未被使用的那些引用频次的评价指标。EM’指数、EMM指数和EMM’指数则是对EM指数的计算过程和方法进行调整后提出的指数。本文比较了各个指数的分布范围,以及使用不同的指数对学者进行排名时他们的排名变化,发现EMM指数和EMM’指数与EM指数和EM’指数相比具有区分度高、对高被引学者友好等优势,更适合用于学者学术影响力的评价。关键字学术影响力;h指数;EM指数;EMM指数Research on ScholarsAcademic Impact Evaluation Based on EM Index and Its Derivative Index—— Taking the College of Horticulture of Nanjing Agricultural University as an Examplestudent majoring in Information Management and Information System Zhu HongYuTutor Zhuang QianAbstract:Using the existing theories and indices in bibliometrics, this paper tries to use EM-index and its derivative index to evaluate the academic influence of scholars, taking the scholars of Horticulture College of Nanjing Agricultural University as the research object. EM-index is based on discussing the advantages and disadvantages of h-index, e-index and multi-dimensional h index, trying to synthesize their adva *景先生毕设|www.jxszl.com +Q: @351916072
ntages and put forward a more comprehensive evaluation index to reflect the unused quotation frequency in h core. EM-index, EMM-index and EMM-index are the indexes proposed after adjusting the calculation process and method of EM-index. This paper compares the distribution range of each index and their ranking changes when using different indexes to rank authors. It is found that EMM-index and EMM-index have the advantages of high discrimination and friendliness to highly cited authors compared with EM-index and EM-index, and are more suitable for the evaluation of academic influence of scholars. 引言根据现有的文献资料可知,在1964年文献计量学研究开始出现于我国,但是在20世纪70年代后期才取得初步发展。我国的学者们努力研究了20多年,文献计量学终于开始快速发展,基本上形成教学、研究与实际运用全面发展的乐观形势,而且文献计量学正在源源不断的获得新的研究进展,已经发展为图书情报与科学评价领域中一个非常重要的分支。文献计量学作用巨大、覆盖广泛,是进行科学评价的重要方法。学者们进行文献计量主要是为了对学者、引文和对学术期刊进行评价。其中学者,是一个国家发展科技必不可少的因素,所以在计量学领域内,如何公平公正的评价学者的科研产出一直是研究热点问题。同时,人才评价也决定了学者个人的职称和收入等,而我国政府也致力于激励优秀科研人才。为此,我们发现的确有必要建立一套科学的科技人才评价方法,而使用计量指标进行人才评价就是目前使用最多的评价方法。本课题就是利用信息计量学中现有的理论和指数,以大学园艺学院的学者们为研究对象,试图使用EM指数及其衍生指数进行学者学术影响力评价的实证研究。评价方法综述(一)统计分析方法(二)指数评价方法研究文献计量学的学者们,以前往往根据学者发表论文的总数、总被引以及单篇论文的引频对该学者进行评价。这种方法有一定的合理性,但同时也存在着较为严重的缺点,比如不能够表明哪些论文最能代表学者的学术影响力,所以他们提出了一系列的评价指标,以此对统计分析方法进行补充。1.h指数2005年,美国物理学家J.E.Hirsch提出的h指数巧妙地将论文数量与论文的被引量结合到一个简单的数字中来实现学者学术水平的评价[3]。h指数是通过将学者发表的论文按照引频降序排列计算得到的。h指数计算过程简单并且可以清晰的反映出学者的主要科研成果和他的学术影响力,所以成为评价学者最常用、最重要的指标。J.E.Hirsch提出的h指数的定义是将学者发表的论文按照引频降序排列,如果位于排序前h篇的论文每一篇的引频至少为h,并且第h+1篇论文的引频小于h+1时,那么这个h值就是该学者的h指数。h指数表示为h=max(n),Cn≥n (1)式中cn为集合中第n篇文章的引用频次。 h指数良好的弥补了统计分析方法中各种从单一方面评价学者研究成果的指标的不足。h指数不会被学者发表论文总数的快速增长影响,弥补了统计分析方法中以发文总量为主导的思想,但h指数也不是完美的,比如h指数不能显示出高被引论文对作者得分的影响,也不能充分的利用全部的引频数据,即学者发表的全部论文中引文量位于前h篇的论文集合,那些多于h次的引频就不再对该学者的学术水平得分起任何作用,因此h指数不能公正的评价那些发表论文少而精的学者。 2.e指数学者们提出了各种方法来改进h指数所存在的问题,如R指数、AR指数[4]、hm指数[5]、k指数和w指数[6],等等,这些指数是专门针对h核心中那些在h指数计算过程中未被使用的引频数据而提出的。比如张春霆提出的e指数[7]也是通过利用多于h次的引用量来对学者进行评价的,e指数用数学公式表达为 (2) 式中,h表示该学者的h指数,citn是第n篇论文的引频。e指数等于根号下h核心论文中未被h指数充分利用的引频数据的总和。如果h核心论文的总被引量为cit,则  (3) 式(3)只考虑了位于h核心中的论文的作用。虽然e指数比较适合用于对发表论文少而精的学者进行评价,但从数学的角度严格来看,虽然e指数的计算过程中可以充分利用h指数计算过程中未被使用的剩余被引数据,但是体现不出学者h指数的具体大小。而且,由于e指数的计算过程中使用了减法,如果减数与被减数相近或相同都会出现问题。如果某学者的h指数在其研究领域处于较高排名,但是他的h核心论文的引频都很接近他的h指数,那么根据公式(3),该学者的科学成就就会非常低,这显然是不合理的。如果h核心中的论文的引频都为h,那么根据式(3)计算可得e指数为0,而一个获得过被引的作者的学术影响力肯定不应该为0。因此,在使用e指数对每篇论文的被引量相差不多的学者的学术水平进行评价时,也许会得到低于其真实水平的得分。此外,和h指数一样,e指数并没有考虑到h核心外的论文引频数据,然而每一篇具有引频数据的论文都应该考虑在作者的学术影响力中[8]。 3.多维h指数为了弥补e指数的缺点,文献计量领域的学者们提出了多维h指数。多维h指数由h指数演变而来,以期在评价学者学术影响力时充分利用那些未被h指数使用的引频数据。多维h指数由多阶h指数组成H={h1,h2,h3,,hk}其中h1的数值等于学者的h指数。h2是使用h核心以外的论文的引频数据计算出的新h指数。相应地,h3也是由第二个h核心以外的引频数据计算出来的。继续重复这个过程,当作者发表的全部论文的引频数据都只剩下1或者全部论文都参加过计算或者全部论文的引频数据都被用尽时,计算才结束。多维h指数更加充分的利用了学者全部论文的引频,但是它的计算结果是一个向量而不是一个数字,所以不能方便直观的对学者进行评价。 4.EM指数和EM’指数A.Bihari等人[9]对e指数和多维h指数的计算方法进行了修改和调整后,提出了EM指数,希望可以更全面地反映引频多于h但未被使用的那些引频数据。假设N是一名学者发表论文的总数,t是其中至少获得过一次引用的论文数量。E是包括h核心中全部论文的引频数据的m维度的向量,若将向量中的每个元素递减排序,有Ek≥Ek+1且1≤k≤m。与多维h指数相似,E向量中的第一元素E1是学者的h指数;E向量的第二个元素E2是h核心中每篇论文的引频数据减去原始h指数后,利用这些新的数据重新计算的h指数。这样,EM指数可以表示为向量EM=(E1,E2,,Ek)且En≥En+1。E向量的各个元素可以体现出h核心中在计算h指数时未被使用的引频数据的贡献。一名学者的EM指数等于根号下E向量中各阶h指数的总和,即  (4) 在计算EM指数时,我们可以充分使用h核心论文的每一个被引数据,但是在科学评价中,每一篇被引用过的论文都是有价值的[10]。为了弥补EM指数的缺陷,A.Bihari又提出了EM’指数。EM’指数与EM指数的计算方法相同,但是将EM指数进行了多维扩展,即使用的数据不仅仅是h核心中的论文引频,还有h核心以外的论文的引用频次。设N为单个学者已发表文章的总数,t为至少有一个引用计数的文章的总数,E’为包含至少有一个引用计数的所有文章的引用计数的m维向量,E’的元素按其值的降序排列,因此E’n>E’n+1,1E’n+1。EM’指数的组成部分显示了个体在各个层次上的重要性。一名学者的EM’指数等于根号下E’向量中各阶h指数的总和,即  (5)EM’指数的各阶h指数组成因学者的不同而不同,这就可以显示出每个学者之间的差异是否明显。 5.EMM指数和EMM’指数与h指数和e指数相比,EM指数和EM’指数非常充分地利用了学者发表的全部论文的引频数据,但是在计算EM指数和EM’指数时,当学者全部论文的引频都为1时就会停止计算,这使得许多引频数据没有被充分利用,对一些引频不高的学者来说影响很大,而且会使得分整体下降,得分范围缩小,从而出现多人得分相同的情况。其次,在计算EM指数和EM’指数时,我们只是单纯的求出了向量中的各阶h指数的和,削弱了原始h指数对于学者最终得分的贡献。例如,在一名学者的EM向量中,h指数很小但是有许多阶,那么这些h指数加和后得到的分数可能会超过另一名阶数很少但是h指数很大的学者,而h指数着重考虑高被引论文,学者的评价得分,如果h指数的衍生指数不具有这一思想,那么就没有提出的必要。因此,张学梅[10]考虑了EM指数和EM’指数的优缺点,试图继承它们的优良属性,补足它们的缺点,提出了EMM指数和EMM’指数,EMM向量和EMM’向量也是由很多阶h指数组成,但是在计算作者学术影响力最终结果时先求出各阶h指数的平方和,最后再开根,EMM指数和EMM’指数可以用数学公式表示  (6)  (7)数据与结果分析(一)数据来源1.统计原则为了确保搜集的引频数据统一准确,以得到准确且客观的评价结果,需要对统计原则作出一些规定。(1)学术论文在采集数据时,只选择期刊和硕博士论文,如果检索结果中有会议论文、图书等其他类型的文献,则忽略不计。(2)系列论文分别统计 笔者在统计的过程中发现有部分论文虽然学者、题名都相同,但是属于系列论文,即每个子系列都是一篇完整的、内容独立存在时也成立的论文,如果出现这种情况则分别统计系列中每篇论文的引文数据。(3)受篇幅限制在几期中连续刊登完的算一篇 此外笔者还发现,同一篇论文却刊登在不同时间的不同期刊上,此类期刊一般为复印资料或文摘,此情况算为一篇论文的引文。2.错误数据修正 (1)学者重名 (二)数据分析1.学者各评价指数分析 观察表1我们可以看到h指数、EM指数及其衍生指数的最大值、最小值和极差。由表1可知,EM指数和EM’指数的得分范围比EMM指数和EMM’指数的小了一半,分别为19.1742和19.2990。本实验选取了118名学者,而所有学者的得分都小于20,必然会出现多人得分相同的情况。观察学者得分,有29个EM指数得分同时被两个或两个以上的学者获得,并且这些相同的得分都出现在得分小于10的学者中,即共有79名学者遇到了分数和其他人相同的情况,占到了118名学者的66%。有27个EM’指数得分同时被两个或两个以上的学者得到,并且这些相同的得分都小于10,也就是说一共有72名学者得分与其他人相同,占118名学者的61%。本实验共选取大学园艺学院的118名学者,已经很难进行区分,可见EM指数和EM’指数的很难用于一个科研机构甚至一个国家的人才评价,其中EM指数的区分度比EM’指数更差强人意。指数类别h指数EM指数EMM指数EM’指数EMM’指数最大值2120.174243.208820.299045.3982最小值11111极差2019.174242.208819.299044.3982表 1 各指标得分的范围EMM指数和EMM’指数比EM指数和EM’指数的取值范围要大上很多,它们的极差分别是42.2088和44.3982,所以对学者学术影响力的区分能力更强。从数据看来,有16个EMM指数得分同时被两个或两个以上的学者得到,其中EMM最终得分大于10的学者有3组,EMM最终得分小于10的学者有13组,也就是说一共有41名学者得分与其他人相同,仅占118名学者的34%;对于EMM’指数,分别有15组学者的EMM’指数得分分别相同,其中得分大于10的有1组,小于10的有中14组,也就是说一共有41名学者得分与其他人相同,占118名学者的34%,与上文情况做简单比较,我们可以得知EMM指数和 EMM’指数的区分度得到了很大的提升。但是当我们使用EMM指数和 EMM’指数对一个科研机构甚至一个国家的人才评价时会出现更多人得分相同的可能,但是将EM指数和EM’指数改进后区分度有了非常显著的提高。2.EM指数和EMM指数对比分析 绘制EM指数和EMM指数得分分布情况散点图,如图1。图1给出全部学者的EM得分和EMM得分分数分布,横坐标是将全部学者按照EMM指数得分降序排列所得到的序号,纵坐标是对应学者的EM指数和EMM指数得分,观察图1可以发现,EMM指数在图中各处都有分布,而EM指数主要分布在纵坐标下方区域,并且每个点距离很近,重合情况严重,对学者区分度有限,所以需要提出EMM指数对EM指数加以改进从而提高其区分度。图1 EM指数和EMM指数分布比较园艺学院全体学者的EM指数和EMM指数排名,可以发现有44名学者排名上升,58名学者排名下降;排名上升最多的有41名,排名下降最多的为22名。因此,我们可以看出使用EMM指数对学者进行评价后,对于学者个人名次影响很大。进一步观察名次浮动最明显的几名学者的引频数据,可以发现当一名学者发表的全部论文中,有特别突出的高被引论文时,由于该学者的最大引频比原始h指数大很多,因此各阶h指数会非常缓慢的降低,从而获得更多阶的h指数。当这么多阶h指数呈指数增长时,会使得该学者的得分大幅度提高,从而获得更好的排名。同时,某些学者的EMM指数排名下降,是因为他们的论文中引频最高的论文与其他论文的引频相差不多,所以h核心中的引频数据快速减少,在计算EMM指数时,EMM向量中只有很少的h指数,导致最终的EMM 指数得分不高,所以该作者的EMM指数排名比EM指数低。首先,按照h指数得分高低给作者进行编号。然后综合考虑h指数、EM指数和EMM指数,从大学园艺学院全体学者中选出排名靠前的的学者,如表2。表中给出了这些排名较高的学者的EM指数、EM指数排名、EMM指数、EMM指数排名和他们的排名变化情况。表中共涉及27名学者,其中有14名排名上升,有10名排名下降,还有3名学者的EMM指数排名和EM指数排名相同,但是这三名学者的EM指数和EMM指数得分并不相同。由此可知,当使用EMM指数进行学者学术影响力评价时,可以使具有较高h指数得分的学者获得更好的排名。表 2 EM指数和EMM指数及其排名变化情况h指数排名学者EM指数EM指数排名EMM指数EMM指数排名排名变化1郭巧生9.8489 16 30.1496 5112姜卫兵18.3576 4 43.2088 133汪良驹14.4222 5 38.3406 234张绍铃13.6748 8 31.6070 445陈发棣14.3527 6 28.2843 606侯喜林11.2694 12 23.6432 1117房经贵12.2882 10 25.1197 918郭世荣19.7484 2 35.9722 3-19陶建敏7.0000 26 16.1555 19710高志红10.8167 13 25.3574 8511陈劲枫9.6954 17 22.4944 12512柳李旺19.2094 3 27.4044 7-413张飞7.5498 24 17.6918 17714郝日明9.3274 18 18.1384 16215刘丽8.6023 22 18.3303 15716唐晓清6.8557 27 13.8924 25217王健7.4833 25 14.6287 24118乔玉山12.8062 9 19.7990 13-419吴俊8.8882 21 15.1327 21020王晨8.1240 23 14.6969 23021娄群峰10.2470 15 17.4642 18-327马锦义20.1742 1 24.5967 10-932管志勇8.9443 20 15.0997 22-235杨立飞10.6771 14 15.5563 20-641王燕11.6619 11 12.8062 26-1546罗庆云14.1421 7 19.0263 14-769朱月林9.1104 19 11.1803 27-83.EM’指数和EMM’指数对比分析 图 2 EM’指数和 EMM’指数分布绘制EM’指数和EMM’指数得分分布情况图,如图2。图2给出全部学者的EM得分和EMM得分分数分布,图中纵坐标是具有相应序号的学者的EM’指数和EMM’指数得分,横坐标是大学园艺学院全体学者按照EMM’指数得分按降序排列的得到的序号。观察分布图可以直观的看出,EMM’指数均匀的分布于图中各处,而EM’指数集中分布于下方,并且每个点距离很近,重合情况严重,对学者区分度有限,所以需要提出EMM’指数对EM指数加以改进从而提高其区分度。进一步观察园艺学院全体学者的EM’指数排名和EMM’指数排名,在118名学者中,EMM’指数排名比EM’指数排名上升最多的是34名,排名降低最多的有25名;有49名学者排名上升,56名学者排名下降,还有13名学者的排名没有发生变化,但其EM’指数得分和EMM’指数得分并不相同。表 3 EM’指数和EMM’指数及其排名变化情况h指数排名学者EM’指数EM’指数排名EMM’指数EMM’指数排名排名变化1郭巧生10.6301 1536.1525 3122姜卫兵18.3030 445.3982 133汪良驹14.4222 539.8497 234张绍铃13.6382 832.9848 535陈发棣14.2829 630.0333 606侯喜林11.2694 1226.1725 1027房经贵12.2474 1026.9072 828郭世荣19.7484 235.9722 4-29陶建敏7.3485 2718.7083 18910高志红10.9545 1326.3818 9411陈劲枫9.6954 1722.8910 13412柳李旺19.2094 328.1247 7-413张飞7.5498 2525.7294 111414郝日明9.3274 1819.1572 17115刘丽8.6023 2319.8997 15816唐晓清6.9282 2816.3095 21717王健7.4162 2615.6525 24218乔玉山12.7671 920.5183 14-519吴俊8.8882 2016.0935 22-220王晨8.1240 2416.6132 20421娄群峰10.2470 1617.8606 19-326吴震5.3852 2911.7898 27227马锦义20.1990 124.9800 12-1132管志勇8.8882 2015.4596 25-535杨立飞10.7703 1415.8745 23-941王燕11.6619 1113.8564 26-1546罗庆云14.1421 719.3391 16-966王三红8.8882 2011.3578 28-869朱月林9.1104 1911.2694 29-10三、结论 本课题利用文献计量学中现有的理论和指数,选取了EM指数及其衍生指数做为计量指标,以大学园艺学院的学者们为研究对象,进行学者学术影响力评价研究。EM指数是对e指数和多维h指数的计算方法进行了完善和补充后,提出来的改进指标,EM指数可以更全面地显示出那些大于h但未对h指数产生贡献的引用频次。EM’指数、EMM指数和EMM’指数则是对EM指数的计算过程、使用数据的范围进行改进后提出的指数。本文比较了各个指数的分布范围,以及使用不同的指数对学者进行排名时他们的排名变化,发现EMM指数和EMM’指数与EM指数和EM’指数相比具有区分度高、对高被引学者友好等优势,更适合用于学者学术影响力的评价。根据上文的实证研究可知,EMM指数和 EMM指数具有以下几点优势: ①区分能力更好。同样将大学园艺学院的全体学者作为研究样本,使用EM指数和EM指数继续评价时极差不足20,但是使用EMM指数和EMM指数进行评价后学者们的得分极差更大范围更广,学者得分相同的情况也有所改善。③良好的继承了h指数的设计思想。与EM指数和EM指数不同,即使学者在计算过程中得到了很多阶较小的h指数,也不会使最终结果发生太大的变化,而那些具有较高原始h指数和高被引论文的学者则可以获得更好的EMM指数和 EMM指数得分和排名,④具有更合理的评价结果。在使用EMM指数和 EMM指数对样本学者的学术影响力进行排名时更加符合实际情况。此外,本研究还存在几点不足①首先,本实验所使用的指数存在局限性。通过实证研究,我们可以发现h指数是一个操作简单、思路清晰的文献计量指标,可以用于评价学者学术影响力,还可以用于评价期刊影响力。h指数可以将学者的论文发表总量和论文被引量有机的结合起来,在二者之间建立了一种简单的数学关系。h指数并不是单纯的测量学者巅峰时期的科研成果,而是全面的考虑学者学术生涯中所有的科研成果。如果某位学者发表的论文总量快速增多也不会对h指数产生影响;但某些论文的引频增加却可能给该学者的h指数带来较大变化。但是因为同样的原因我们不能通过观察h指数得知学者科研成果是否在减少。而那些学术影响力很大的学者,可以坐享其成地看到h指数的增长,从而获得各种奖励。发表于很早之前论文,有更长的时间被其他学者看到,引文量也自然更多。如果不统计发表时间较早的论文,又对进行了长时间科研工作的年长的学者有失公正。如果统计了这些论文,对于那些刚开始从事科学研究的学者来说,他们所发表的论文总量和引频相对较低,其h指数也必然不高,但他们可能掌握着其所属领域的前沿知识。另外,在学者撰写论文并署名的过程中,第二、第三学者的贡献度虽然不如第一学者,但是完全忽略不计也是不正确的。然而h指数没有考虑到学者合作问题,并且继承了h指数的EM指数及其衍生指数也存在这样的问题。②其次,园艺属于自然学科,核心期刊多为外文期刊,而CNKI数据库中主要收录中文文献和期刊,这就使得从CNKI数据库中获得的原始引频数据不能准确的体现出某些致力于发表外文文献的学者。在改进时应该同时从多个数据库下载引文数据,综合考虑学者所发表的中文文献与外文文献。 ③最后,本实验选取的学者所属的领域、学科、研究单位和学院都相同,不属于随机抽样,他们可能具有一些共同的特点,是其他领域、学科、研究单位和学院的学者所没有的,但仅仅通过本实验无法看出这些特点。致谢最后,我还要感谢我的同学们,他们也在我写毕业论文的过程中给予了我很多帮助,没有他们我也不能如此顺利的完成论文。参考文献[1]张明,仲东亭.2001-2005年我国情报学研究文献计量分析[J].情报科学,2007,5(11):1746-1750.[2]宋巧枝,方曙.基于文献统计分析法的专利计量分析研究[J].现代情报,2008,10(02):125-126,129.[3]汪冰.中国情报学期刊论文合著现象研究与思考[J].情报科学,1992,7(02):8-16,79.[4]HIRSCH J E. An index to quantify an individual’s scientific researchOutput[J].Proceedings of the National Academy of Sciences of the United States of America,2005,102(46) :16569-16572.[5]金碧辉,Rousseau Ronald.R指数、AR指数:h指数功能扩展的补充指标[J].科学观察,2007,8(03):1-8.[6]张学梅.h_m指数——对h指数的修正[J].图书情报工作,2007,3(10):116-118+16.[7]ZHANG Chunting.The e-index,complementing the h-index for excess citations[J].PLoS One,2009,4(5)e5429.[8]GARCIA-PEREZ M.A multidimensional extension to Hirsch’s h-index [J]. Scientometrics,2009,5(81):779-785.[9]BIHAI A,TIPATHI S. EM-index:a new measure to evaluate the scientific impact of scientists[J].Scientometrics,2017,112(1):659-677.[10]张学梅.EMM指数和EMM指数:两种基于改进EM指数和EM指数学者学术影响力评价指标研究[J].情报理论与实践,2018,41(03):39-43,56.
目录
摘要 1
关键词 1
Abstract 1
Key Word 1
引言 1
一、 评价方法综述 2
(一)统计分析方法 2
(二)指数评价方法 2
1.h指数 2
2.e指数 3
3.多维h指数 3
4.EM指数和EM’指数 3
5.EMM指数和EMM’指数 4
二、 数据与结果分析 5
(一)数据来源 5
1.统计原则 5
2.错误数据修正 5
(二)数据分析 6
1.学者各评价指数分析 6
2.EM指数和EMM指数对比分析 6
3.EM’指数和EMM’指数对比分析 9
三、结论 10
致谢 11
参考文献 12
图1 EM指数和EMM指数分布
图2 EM’指数和 EMM’指数分布
表1 各指标得分的范围
表2 EM指数和EMM指数及其排名变化情况
表3 EM’指数和EMM’指数及其排名变化情况
基于EM指数及其衍生指数的学者学术影响力评价研究
——以大学园艺学院为例
引言

原文链接:http://www.jxszl.com/jsj/xxaq/564010.html