"景先生毕设|www.jxszl.com

面向数字人文期刊的研究对象自动抽取研究【字数:12458】

2024-11-03 10:55编辑: www.jxszl.com景先生毕设
III
目录
引言
在5G技术成为科技热点和大数据及人工智能流行的大背景下,数字人文将计算机技术应用于人文学科领域。近年来,国内多次数字人文会议由国内名校召开[1]。数字人文在各个学科领域蒸蒸日上,数字人文研究机构和项目在全球范围内发展迅速[2]。数字人文的相关期刊以及会议出版物在过去十年间呈现出爆发式增长,然而,国内较为成熟的数字人文领域的研究重点倾向于数字人文技术研究或数字人文相关平台的建设、维护等,关于数字人文领域的研究对象的具体研究却极少见报,以数字人文的研究对象为研究主体进行关系抽取探究的相关研究少之又少。数字人文的研究对象即为数字人文学科领域的研究所涉及到的具体对象,数字人文的研究对象反映了数字人文的具体研究内容。抽取数字人文的研究对象能够概括地展示出数字人文的研究内容,从而得以进一步揭示当前的流行研究方向、研究热点,进而可以帮助数字人文研究者对数字人文的未来研究发展趋势作出预测和对当下数字人文研究方向做出调整。
关于数字人文热点探析的研究多集中于使用文献计量的方法,对具体词汇、学科的界定比较模糊,结果存在一定的主观因素。深度学习业已成为关系抽取的主流方法,深度学习在数字人文研究对象的抽取工作中的效果有长远的探索意义,使用深度学习的方法对数字人文研究对象进行抽取能够在保证客观性的同时获取到相对可靠的结果,并可基于此对当前的研究热点进行探析。
因此,本文通过爬取两种外文数字人文期刊的摘要关键词作为原始语料,利用基于深度学习的抽取方法开展命名实体识别工作,再使用深度学习模型抽取研究对象实体间的关系,并对结果进行评价和分析,在此基础上对当前数字人文的研究热点和前沿方向进行探析。
一、研究综述
(一)量化数字人文研究综述
数字人文是由人文计算衍生而成的,利用计算机技术解决传统的人文科学的问题并继续发掘和探索人文学科问题[3]。1949年,被誉为“数字人文之父”的布萨首次将文本与计算结合,这是计算机人文应用的发端[4]。20世纪60年代到80年代是数字人文的萌芽期,学界召开学术研讨会,以量化资料进行分析,建立语料库或数据库等。20世纪90年代随着互联网技术的发展,图像和超文本被应用到数字人文课题研究中,产生了大量的档案类的学术课题和优质研究成果。人文学者通 *51今日免费论文网|www.51jrft.com +Q: ¥351916072
过互联网对数字人文课题进行探究并创建数字人文学术共同体[5]。21世纪初数字人文作为学术领域的概念被正式提出,数字人文的学术地位也由此改变,正式成为了一门显学[3]。
总的来说,数字人文研究无论在国内还是国外均处在相对初期的文献积累阶段,但与相对成熟的国外相比,国内的数字人文领域研究存在起步晚,研究成果不多的情况,与国外存在着一定差距。2016年,首届“数字人文论坛”会议在北京大学召开,由此,国内兴起数字人文学术研讨会,数据可视化和数字人文理论基础等议题被深入而又广泛地讨论,数字人文研究开始正式迈进国内主流学术交流界[6]。
当前数字人文的研究方法主要是通过常规的定量定性的方法对相关学科展开研究,其中最为普遍的方式,是文献计量法。文献计量法能够定量研究某一学科领域各方面的相关文献,可从年代分布、学科方向、关键词分析等方面开展研究进展分析[7]。Citespace这一引文可视化分析软件是当下最常用的工具之一,可视化的结果以聚类视图的方式呈现。在学科组成复杂的数字人文领域常被用来进行引文分析和关键词分析。以时间线和时间区域展示结果也让Citespace在表现文献的时空分布的方向上有着直观形象的效果,能够形象地解释学科结构和历史演变。但量化研究同样存在着许多局限。数字人文存在多学科交叉,对于复杂的研究内容和学者群体,文献计量的方法仅通过数据分析无法解释学科交叉点存在的矛盾。对于数字人文区域化发展的研究,文献计量法会存在主观臆断类别分类的情况。这就需要计算机学科与人文学科协调发展,数字人文学者、技术和环境研究的探讨是当下数字人文领域的研究趋势。
(二)关系抽取研究综述
互联网技术处于不断的飞速发展中,从分散复杂且重复的数据中得到能够被利用的结构化数据成为当下亟待解决的问题,这是信息抽取在当下趋势中最重要的研究课题之一。对信息抽取来说,关系抽取是举足轻重的一环。关系抽取在近些年来成为信息研究界的一个热门技术,得到了普遍研究和关注。
关系抽取包括经典关系抽取方法和基于深度学习的抽取方法。经典抽取方法包含了有监督、半监督、无监督、远程监督和面向开放域的关系抽取这五类[8],特征提取误差较大是经典方法的缺点,这会导致实体关系抽取效果达不到要求。近年来,深度学习广泛兴起,实体关系抽取中,深度学习方法受到广泛探讨。基于深度学习的实体关系抽取中有监督和远程监督两种方式使用最为广泛。在关系抽取过程中,上述方法并没有明显的界限,常根据具体工作需要将多种抽取策略结合,取长补短提升抽取效果。
1.经典抽取方法
目前得到普遍应用的方式是有监督的关系抽取。利用标注过的数据训练模型再进行特征提取等环节。该方式准确率较高。庄成龙[9]等在结构化信息中添加实体语义信息,删除重复信息,增强了关系抽取的性能,模型测试的F值接近80%。经典的有监督抽取存在召回率较低的现象较多的缺点,从结构上看模型训练和预测的时间较长[10]。

原文链接:http://www.jxszl.com/jsj/xxaq/607035.html