"景先生毕设|www.jxszl.com

多策略下的引用人名识别研究【字数:10435】

2024-11-03 10:53编辑: www.jxszl.com景先生毕设

目录
摘 要 I
ABSTRACT II
引言 1
一、当代实体识别的发展状况 1
(一)基于规则的方法 1
(二)基于统计的方法 2
(三)基于深度学习的方法 2
二、相关方法 3
(一)条件随机场 3
1.模型结构 3
2.特征模板 4
(二)循环神经网络(RNN) 4
(三)长短期记忆神经网络(LSTM) 5
1.LSTM神经元结构 5
2.双向长短期记忆神经网络(BILSTM) 6
(四)BERT模型(Bidirectional Encoder Representations from Transformers) 6
(五)注意力机制 7
(六)dropout技术 8
(七)Adam优化算法 8
三、多策略的人名识别 9
(一)基于规则的识别框架构建 9
1.人名识别规则构建 9
2.实验过程及结果 9
(二)基于CRF的识别框架构建 9
1.特征模板一 9
2.特征模板二 10
(三)基于注意力机制与BILSTMCRF融合模型的识别框架构建 10
1.模型结构 10
2.参数设置与实验结果 11
(四)基于BERTBILSTMCRF的识别框架构建 11
1.模型框架 11
2.参数设置与实验结果 12
3.独立BERT模型识别结果 12
四、实验结果分析 12
(一)语料标注与评价指标说明 12
(二)实验结果分析 12
五、总结 13
致谢 13
参考文献 14
图21 条件随机场结构 4
图22 LSTM神经元结构 5
图23 BERT模型结构 6
图24 transformer编码结构 7
图25 引入注意力机制的 Enc *51今日免费论文网|www.51jrft.com +Q: ^351916072
oderDecoder编码结构 8
图31 引入注意力机制的 BILSTMCRF模型结构 ........................................................10
图32 BertBILSTMCRF模型结构 11
表21 CRF特征类型样例 4
表31 特征模板一 ..................................................................................................................9
表32 特征模板二 10
表41 实验结果 ................................................................................................................12
多策略下的引用人名识别研究
摘 要
随着信息化水平的不断提高,学术信息也在指数式不断增长,学术文本是学术研究中的重要材料,包含着海量的可供研究的信息,例如作者信息、年代信息、主题信息等。从学术文本中识别出有用的信息成为一项重要的研究内容。本文基于学术文本英文语料对文本中的引用作者名字进行识别,采用了多种策略实现这一需求,主要有基于规则的方法、基于统计的方式以及基于深度学习的识别方式。其中,基于规则的方法本文采用了构建规则模板的方式与文本语料进行匹配识别,基于统计的方法本文采用条件随机场模型(CRF),并且使用了两种特征模板构建模型。基于深度学习的方法采用了融合注意力机制和条件随机场的双向长短期记忆神经网络模型,本文还引入了2018年Google提出的BERT预训练模型,并将该模型融合到双向循环神经网络中对引用人名进行识别研究。最终实验得出结果:基于深度学习的识别方法性能最佳,基于注意力机制和BERT预训练模型的BILSTMCRF最终得到的调和平均值分别为99.99%和99.89%,其次为基于统计的CRF模型,两个特征模板得到调和平均值均在85%以上,基于规则的方法相较而言性能最差,F值为63.75%。
引言
一、当代实体识别的发展状况
命名实体识别(Named Entity Recognition,NER)起源于20世纪80年代,这项研究开始展开,这项识别任务属于信息抽取的范畴,主要针对于语料中的专有名词作为知识提取的目标。实体则是表示一段文字中含有特殊意义的词语,主要包括人物名、地区名、设施名等,围绕这些实体,科研工作者们展开了许多研究。90年代,MUC6(Message Understanding Conference)初次把命名实体识别看做知识提取的其中一项工作展开研究。
(一)基于规则的方法
NER任务中最先采用的方法是基于规则的识别方法,基于规则的实体识别是根据实体的内在特征以及上下文结构进行总计归纳,对文字中的规律进行提取,从而手动构建识别规则的方法,大多基于设计规则模板进行匹配。而规则大多依赖具体语料格式.皇甫晶、王凌云[]使用基于规则的方法,利用姓氏字典判断语料中是否含有姓氏,再通过名字用字信息、语法信息、指示动作信息等确定人名右边界,进一步对纪传体古代汉语文献中的姓名展开辨认,最终结果为召回率75 .4%,准确率91.9% 。闫丹辉、毕玉德[]通过分析越南语语言特点,构建了152条越南语实体识别规则,构建了词典对实验材料中的人物名、地区名和设施名进行提取,实验达到了较高的准确率。

原文链接:http://www.jxszl.com/jsj/xxaq/606997.html