"景先生毕设|www.jxszl.com

中文科技类新闻命名实体识别研究【字数:10893】

2024-11-03 10:49编辑: www.jxszl.com景先生毕设

目录
摘 要 III
关键词 III
Abstract IV
引言
引言 1
一、 命名实体识别 1
(一) 命名实体 1
(二) 命名实体识别 1
二、 研究现状 2
(一) 基于规则的方法 2
(二) 基于机器学习的方法 3
(三) 基于深度学习的方法 3
三、 实验模型及其原理 3
(一) 隐马尔可夫模型(HMM) 3
(二) 长短期记忆人工神经网络(LSTM) 4
(三) 双向长短期记忆人工神经网络(BILSTM) 4
(四) BILSTMCRF 4
四、 实验设置与结果分析 4
(一) 数据集 4
1. 数据来源 4
2. 数据处理 5
(二) 实验结果 6
1. 以实体为单位进行评价 6
2. 以标签为单位进行评价 7
3. 以标签为单位的混淆矩阵 8
(三) 分析 11
1. 对比HMM模型与BiLSTM模型 11
2. 对比BiLSTM模型与BiLSTMCRF模型 12
3. 混淆矩阵分析 12
4. 组织机构实体识别效果分析 13
五、 实验的不足 13
1. 数据集规模小 13
2. 数据特征少 13
3. 模型复杂度低 14
六、 总结展望 14
致谢 15
参考文献 15
图3 1时间实体P、R、F对比 11
图3 2地点实体P、R、F对比 11
图3 3组织实体P、R、F对比 11
图3 4人物实体P、R、F对比 11
图3 5以实体为单位P、R、F对比 11
图3 6时间、地点、人物实体P、R、F对比 11
表3 1数据集标注示例 6
表3 2实体BIESO标签 6
表3 3数据集中的实体数量 *51今日免费论文网|www.51jrft.com +Q: #351916072
6
表3 4以实体为单位的准确率、召回率、F1分数 7
表3 5以字为单位的准确率、召回率、F1分数 8
表3 6以字为单位的标签混淆矩阵 9
中文科技类新闻命名实体识别研究
摘 要
随着互联网技术的迅速发展,互联网信息的产生、传播速度越来越快,网页中积累了海量的、以不同形式、不同结构存储的新闻事件文本数据信息,快速有效地获取符合需求的信息显得尤为重要。再加上近年来学术不端事件频发,造成了巨大的社会负面影响,学术不端事件越来越被大众广泛关注。如何及时准确地获取有效信息,快速作出决策,引导舆论成为高校、教育部门的迫切需要。高效地对科技类新闻报道中的事件进行组织,及时了解问题,就需要对新闻六要素:谁(Who)、何时(When)、何地(Where)、何事(What)、为何(Why)、过程如何(How)进行有效地提取。科技类新闻中往往涉及到时间、地点、专家学者姓名、科研机构高校名称等命名实体,因此命名实体识别工作在对学术不端的甄别中显得尤其重要。本研究尝试了目前命名实体识别常用的机器学习方法、深度学习方法:隐马尔可夫模型(HMM)、BiLSTM、BiLSTMCRF,对科技类新闻中的时间、地点、人物、组织机构4种实体进行识别,并对不同的实验模型的结果进行对比和分析。实验结果显示BiLSTMCRF模型效果最佳,对时间实体的识别准确率达77.19%、召回率达77.84%,对地点实体的识别准确率达71.74%、召回率达61.64%,对人名实体的识别准确率达72.72%、召回率达60.06%.
RESEARCH ON NAMED ENTITY RECOGNITION OF CHINESE SCIENCE AND TECHNOLOGY NEWS
ABSTRACT
With the rapid development of Internet technology, the generation and spread of Internet information is getting faster and faster. Massive news and text data in different forms and different structures are accumulated in web pages. Coupled with the frequent occurrence of academic misconduct in recent years, which has caused a huge negative social impact, academic misconduct has been increasingly concerned by the public. How to obtain effective information in a timely and accurate manner, make quick decisions, and guide public opinion has become an urgent need for universities and education departments. To effectively organize the events in science and technology news reports and to understand the problems in time, it is necessary to effectively extract the six elements of news: who, when, where, what, why, and how. Science and technology news often involve named entities such as time, place, names of experts and scholars, and names of scientific research institutions, so the identification of named entities is particularly important in the identification of academic misconduct. In this study, we tried the current commonly used machine learning methods and deep learning methods for named entity recognition: Hidden Markov Model (HMM), BiLSTM, BiLSTMCRF, and try to identify time, place, person, organization in science and technology news. Compare and analyze the results of different experimental models. The experimental results show that the BiLSTMCRF model has the best effect, the recognition accuracy of time entities is 77.19%, the recall rate is 77.84%, the recognition accuracy of location entities is 71.74%, the recall rate is 61.64%, and the recognition of name entities The accuracy rate is 72.72%, and the recall rate is 60.06%.

原文链接:http://www.jxszl.com/jsj/xxaq/606933.html