先秦人物关系抽取研究【字数:11043】
目录
摘要 3
关键词 3
Abstract 3
Key words 3
一、研究综述 5
(一)数字人文实体研究进展 5
1.国内外数字人文的发展历程 5
2、人文信息资源语义描述 6
(二)关系抽取研究综述 6
1.基于规则的关系抽取 6
2.基于浅层机器学习的关系抽取 7
3.基于深度神经网络的关系抽取 7
4.本文采取的关系抽取方法 8
二、模板构建及标注策略 9
(一)实体模板及关系模板构建 9
1.实体模板构建 9
2、关系模板构建 9
(二)标注策略及语料构建 10
三、关系抽取方法 11
(一)基于PCNN的关系抽取 11
(二)基于BiLSTM的关系抽取 11
(三)基于Transformer的关系抽取 11
(四)基于Bert的关系抽取 12
(五)模型参数调整 12
1.学习率(learning rate)的衰减率 12
2.Dropout参数 12
四、效果测评 13
(一)测评方法 13
1.测评语料 13
2.测评指标 13
3.硬件环境与训练计划 14
(二)测评结果分析 14
1.不同模型 14
2. 不同关系 *51今日免费论文网|www.51jrft.com +Q: @351916072@
模板 15
3.不同句子长度 15
五、研究总结与展望 16
(一) 研究总结 16
(二) 不足之处与展望 17
致谢 17
参考文献 17
图01 CBDB 收录人物历史年代分布 4
图11数字人文关注度指数分析 5
图21 deepke 标注数据格式 10
表31 不同学习率衰减率训练结果 12
表32 不同 Dropout 训练结果 13
表41 四种模型的评测结果(1000条训练语句, 12种关系类型) 14
表42 四种模型的评测结果(1000条训练语句, 15种关系类型) 15
表43 不同平均句子长度语料的关系抽取结果 16
先秦人物关系抽取研究
引言
从夏商的青铜器皿到春秋战国的百家争鸣,先秦时期繁星璀璨,被誉为中国历史的“头颅”,含有起源,智慧之意;研究先秦历史有着溯源历史与精神根基,弘扬我国优秀传统文化的重要意义。而随着人工智能与大数据技术的发展,数字人文这一应用数字技术研究人文领域的新研究范式出现,其研究与实践的重点之一在于使用数字技术对数字化或原生的数字人文信息资源进行采集、描述、组织与分析[1]。
在我国历史研究领域,哈佛大学、北京大学、台湾中研院共同主持的中国历代人物传记资料库(CBDB)通过人工整理或计算机自动抽取的方法,将非结构化的古籍材料转化为结构化的电子数据存入关系数据库中,以便历史人文研究者们检索查询[2]。以其中的唐代数据为例,截止2018年,编者们主要从各类史料与后人编撰的索引中整理了人物名、地名、官职名三种类型的数据。对于人物名,项目初期主要收录了《唐五代人物传记资料综合索引》,完成了其中人名的消歧工作。对于地名,编者们主要通过利用触发词的方法抽取墓志铭中的地名,同时将后人编著的《中国行政区划通史唐代卷》中的地名进行数据化。对于官职名的处理,截止2018年仍在进行之中。
然而,关于先秦领域的数字人文的研究却极少见报,包括CBDB收录的人物信息也是以唐宋之后为主,对于之前的历史时期则甚少覆盖。如下图所示,截止2019年4月,CBDB共收录约427000人的传记资料,主要出自七世纪至十九世纪(数据来源:CBDB项目网站主页简介部分)。
/
图01 CBDB收录人物历史年代分布
Figure 01 historical distribution of CBDB figures
而随着计算机技术的发展,深度学习方法逐渐在关系抽取任务中成为了主流,用于从大规模非结构化文本中获取结构化的信息。本文正是以从百度百科爬取的先秦人物词条为原始语料,首先制定实体模板,用基于规则(字典)的方法进行命名实体识别;再制定实体关系模板,用深度学习模型抽取人物实体之间的关系、人物实体与其他实体之间的关系,并进行抽取结果评测与模型比较。本文的研究是对弥补CBDB唐朝之前人物收录空白的一次尝试,以期一窥光辉灿烂的先秦文明,发扬我国优秀的传统文化。
一、研究综述
本文是关系抽取在上游数字人文研究领域的应用,因此本部分将从数字人文与关系抽取两个角度展开研究综述:
(一)数字人文实体研究进展
1.国内外数字人文的发展历程
“数字人文”缘起于“人文计算”[3]。1949年,IBM公司用计算机成功为托马斯阿奎那及相关基督教人员的著作编制索引,成为了计算机在语言学领域应用的肇始。1964年“文学数据处理会议”(Literary Data Processing Conference)首次举办,《计算机与人文学》(Computers and the Humanities)也于1966年正式发刊。20世纪60年代到80年代,数字人文(或称之为人文计算)的发展处于平缓的萌芽期,其工作主要为以量化资料进行分析,建立语料库或数据库并用来存储检索等。从20世纪90年代开始,随着互联网的出现与计算机技术的发展,人文计算由文本逐渐扩大到图像、视频、音乐、虚拟现实等多媒体,这使得“人文计算”这一概念不再适用,21世纪初(2001年)“数字人文”概念被正式提出并迅速风靡。
原文链接:http://www.jxszl.com/jsj/xxaq/606939.html