"景先生毕设|www.jxszl.com

面向人名实体自动识别的序列模型性能对比研究【字数:13599】

2024-02-25 17:07编辑: www.jxszl.com景先生毕设
伴随信息科技的发展进步,语料规模不停增长,数据稀疏、垃圾信息问题伴随而来。如何从大规模、非结构化的文本中迅速有效地获取所需的信息和知识己成为自然语言处理的研究热点。序列标注模型是开展文本信息层面抽取的常用方法,本文研究以识别文本中的人名为例,对比了不同的序列标注模型的效果与时间复杂度,这些序列标注模型包括隐马尔可夫、条件随机场、长短时记忆和卷积神经网络;此外还在字级与分词上进行模型性能对比,直接实现端到端的实现;最后在标注效果较好的卷积神经网络模型上开展人名识别的特征添加。最后针对涉及到的13种模型结构,笔者总结出7个结论。
目录
摘要 1
关键词 1
Abstract 1
Keywords 1
一、引言 2
二、国内外研究现状 2
(一)命名实体识别的国外研究状况 2
(二)命名实体识别的国内研究状况 2
三、算法介绍 3
(一)隐马尔可夫模型 3
(二)条件随机场模型 4
(三)双向长短时记忆神经网络 5
(四)空洞卷积神经网络 6
(五)嵌入层 7
四、实验准备 8
(一)训练及测试语料 8
(二)实验环境 8
(三)实体抽取效果指标 9
五、实验过程 9
(一)基于字的模型对比 9
1. 字级隐马尔可夫实验 9
2. 字级条件随机场模型实验 9
3. 字级BiLSTM实验 10
4. 字级IDCNN实验 12
(二)基于词的模型对比 13
1. 语料预处理 13
2. 三种模型对比实验 13
(三)添加预训练字向量的两种神经网络模型对比 15
(四)基于词添加词性特征的模型对比 16
1. IDCNN+CRF层+词性特征 17
2. CRF+词性特征 19
六、结果总结 19
七、总结与展望 20
图 1 链式条件随机场图结构 4
图 2 长短时记忆模块 5 *景先生毕设|www.jxszl.com +Q: ¥351916072¥ 

图 3 一个IDCNN块结构 6
图 4 CBOW模型 7
图 5 深度学习处理NER任务的经典模型 11
图 6 添加词性特征后神经网络嵌入层的改变 18
表 1 字级人民日报语料处理结果样例 8
表 2 基于字的HMM人名实体自动识别十折交叉 9
表 3 基本的特征模板 9
表 4 基于字的CRF人名实体自动识别十折交叉 10
表 5 基于字的BiLSTM人名实体自动识别十折交叉 10
表 6 基于字的BiLSTM+CRF人名实体自动识别十折交叉 11
表 7 基于字的IDCNN人名实体自动识别十折交叉 12
表 8 基于字的IDCNN+CRF层人名实体自动识别十折交叉 12
表 9 词级人民日报语料处理结果样例 13
表 10 NLPIR系统人姓名切分在一起 13
表 11 基于词的CRF人名实体自动识别十折交叉 14
表 12 基于词的BiLSTM+CRF人名实体自动识别十折交叉 14
表 13 基于词的IDCNN+CRF人名实体自动识别十折交叉 14
表 14 基于分词的几种模型效果比较 15
表 15 BiLSTM+CRF+字嵌入模型人名实体自动识别十折交叉 15
表 16 IDCNN+CRF+字嵌入模型人名实体自动识别十折交叉 16
表 17 添加预训练字向量的几种模型效果比较 16
表 18 人名实体高频姓与名 16
表 19 人名实体高频一元左右边界词 17
表 20 人名实体高频一元左右边界词词类 17
表 21 词级人民日报语料处理结果样例 18
表 22 基于词的IDCNN+CRF层+词性特征十折交叉验证 18
表 23 基于词的CRF+词性特征十折交叉验证 19
表 24 本研究所有模型性能比较 19
面向人名实体自动识别的序列模型性能对比研究
引言
引言
随着文献资源的日益增多,文本资源得到极大的丰富,同时也造成信息量爆炸,引起人们阅读负担过重,这时研究如何从中抽取有价值的信息成为重要研究内容。命名实体识别(Named Entity Recognition, NER)作为自然语言处理(Natural Language Processing,NLP)工作中一个非常基本的内容,它可以被应用在知识图谱、文本理解、对话意图理解、舆情分析任务上,也可以被用在解决文本数据过载这样的问题上。命名实体识别是信息抽取的内容之一,MUC6[1]上面第一次提出命名实体识别概念,该任务主要是要分辨出文本中有含义的数词和专用名称并加以归类[2],它下分为三个子任务:实体名称,时态表达式和数字表达式,传统概念的NER任务主要是对七大类(人名、地点名、日期、时间、机构名、百分数、货币值等[3]),但现在不局限于七类上了。
各种命名实体识别是NLP中十分基础的任务,人名实体是数据中涉及的常见的实体类别,研究识别人名实体模型性能的优劣关系到后续工作的展开,例如将人名实体识别与知识图谱构建相结合,进行社会网络关系[4]的探究,也可以具体应用于不同行业领域上,例如在网络舆情热点的分析与提取[5]、搜索日志中人名的识别[6]、金融文本中实体识别与关系抽取[7]、在招中标领域的应用[8]。因而探讨不同的模型在人名实体识别工作上的表现是序列标注中的代表性任务,十分重要。
二、国内外研究现状
(一)命名实体识别的国外研究状况
关于英文语料上NER的钻研,国外研究人员起步较早。早在1991年,IEEE的人工智能应用会议上展示了“抽取和识别公司名称”的相关方面研究论文,可以自动识别公司名称,该研究的特点是主要采取启发式方法和手工编写规则的办法[9]。1996年时,MUC6[1]上第一次提出命名实体识别概念,在其后的MUC7的MET2[10]和IEER99、CoNLL2002、CoNLL2003、IREX、LREC等一系列国际性会议上,NER都被作为一项特定内容[11]。

原文链接:http://www.jxszl.com/jsj/xxaq/564043.html