面向新冠肺炎疫情的词性语义知识自动获取研究【字数:10919】
目录
一、研究背景及意义 1
二、自动词性标注研究现状 2
三、本文研究方法简介 5
(一)CBOW模型简介 6
(二)BERT预训练模型简介 7
(三)BILSTM和BIGRU等神经网络模型简介 8
四、基于深度学习的自动词性标注实验 10
(一)构建新冠肺炎疫情词性标注语料 10
1.词性标注语料库构建 10
2.词性标记设置 10
(二)词性标注模型构建 12
1.构建词嵌入向量模型 12
2.训练神经网络模型 12
表42 神经网络模型超参数设置 12
3.配置优化算法 13
五、实验结果及分析 13
(一)评价指标 13
(二)实验结果 14
(三)实验结果及模型性能分析 14
1.BERT与CBOW模型对比分析 14
2.BIGRU与BILSTM模型对比分析 15
3. CRF LAYER性能分析 15
六、结语 15
致谢 16
参考文献: 16
图31 CBOW模型结构 6
图32 BERT预训练模型结构 7
图33 LSTM CELL结构 8
图34 GRU CELL结构 9
图35 BIGRUCRF/BILSTMCRF模型结构 9
表31 词性标注模型实验设置 5
表41 词性设置和标记集 10
表51 词性标注模型实验结果 14
面向新冠肺炎疫情的词性语义知识自动获取研究
摘 要
新型冠状病毒肺炎疫情已成为威胁全球群众安全和社会稳定的重大公共卫生事件。我们需要对于新型冠状病毒疫情有着更加科学全面的认识,以改进疫情防控措施,应对新的疫情防控工作需要。为高精度获取新冠肺炎疫情文本的词性语义知识,保障面向新冠肺炎疫情后续的数据挖掘工作顺利进行,本文构建了面向新冠肺炎的语料库,在此基础上基于深度学习技术,展开对新冠肺炎疫情语料 *51今日免费论文网|www.51jrft.com +Q: #351916072#
自动标注的研究。为保障实验取得良好效果,设置多组实验对比了词嵌入向量模型BERT、CBOW,神经网络模型BiGRU、BiLSTM,以及是否使用线性CRF等不同结构模型对疫情语料词性标注性能的影响,实验结果表明BERTBiLSTMCRF在词性标注中取得最优性能,最终得到的准确率为90.21%、召回率为90.77%、F值为90.49%。通过对比分析对上述不同结构模型对词性标注性能的影响得出结论:BERT具有较好的性能但训练速花费较大;CBOW模型性能与训练速度较平衡;BiGRU模型具有比BiLSTM模型更好的性能;线性CRF层的使用在一定程度上提升了模型性能。最后,本文指出了实验中存在的一些缺陷,并提出可能的改进措施。
引言
自2019年12月湖北省武汉市爆发新型冠状病毒感染肺炎(简称“新冠肺炎”)以来,新冠肺炎疫情肆虐全球多个国家,成为威胁全球群众安全和社会稳定的重大公共卫生事件。虽然在国家政府的领导和全国人民的团结努力下,我国疫情防控工作成效卓越,但对于新冠肺炎病毒及其他重大传染疾病的疫情防控工作的研究仍在继续进行。我们需要对于新型冠状病毒疫情有着更加科学全面的认识,以改进疫情防控措施,应对新的疫情防控工作需要。若要提高对新冠肺炎疫情认识的整体水平,就必须首先对新冠肺炎疫情相关的数据、信息进行全面的挖掘、整理和分析。在文本数据挖掘工作中,最首要的任务是获取文本词汇中的词性语义知识。词性是词汇的一项语法属性,它以词汇在组合中的语法功能为依据将词汇划分不同词类。在计算机学科中,通常认为词性语义知识是机器对词汇中词性所表达的内容相对于词性本身的形式的描述,即对词性的词类划分、词类分布和外部表现形态的描述。机器对词性语义知识获取的过程被称为词性标注(POS tagging),想要机器相对准确地获取文本中的词性语义知识,就必须进行高精度的词性标注。
国内目前还未构建面向新冠肺炎疫情的大规模语料库和知识库,相关的文本数据也相对缺失,因而数据科学领域对新冠肺炎疫情的研究暂时比较缺少。列举当前比较有代表性的研究如下。张龙浩[1]等检索多个数据库中的相关的文献,对全球多个医学研究领域中新冠肺炎相关研究作梳理和总结,较为详尽地分析了全球新冠肺炎疫情研究现状。为探索国内新型冠状病毒肺炎研究现状、热点问题和变化趋势,李文满等[2]利用数据可视化软件对大量国内新型冠状病毒文献的作者、发表机构、关键词进行网络聚类分析,评估了当前国内新型冠状病毒主要研究团体及其合作关系、热点问题和拓展方向。为向疫情防控人员预测疫情扩散速度、评估疫情等级提供参考。梁宇鹏等[3]对全国各省市的中医药预防方案中的多味高频药物进行聚类分析,探究中医药组方用药规律,讨论不同药物对病症治疗的作用。总体来看,当前数据科学领域有关新冠肺炎的科研工作中,对自然语言处理研究较少,对于新冠肺炎疫情相关文本词性语义知识自动获取这一任务还处于待探究的阶段。因此,本文将基于深度学习技术,对面向新冠肺炎疫情的词性语义知识自动获取工作展开探究。本文的创新之处在于,使用基于神经网络的深度学习策略,在小规模训练语料的情况下进行了较高精度的词性标注,并对多种深度学习中常用的词性标注模型展开研究,对比分析了各模型的性能差异。
二、自动词性标注研究现状
目前,自动词性标注研究所使用的策略主要可分为三类:基于规则的自动词性标注策略、基于统计的自动词性标注策略、基于神经网络的深度学习自动词性标注策略。值得注意的是,上述几种策略在使用时并没有明显的界限,工作者往往根据实际需要结合使用多种策略,以弥补各类策略的缺陷,取得更好的标注效果。
原文链接:http://www.jxszl.com/jsj/xxaq/607036.html