"景先生毕设|www.jxszl.com

基于bert的春秋经传引得命名实体识别【字数:13087】

2024-11-03 10:50编辑: www.jxszl.com景先生毕设

目录
摘要 III
关键词 III
Abstract IV
引言
引言 1
(一)相关研究 1
一、语料和模型介绍 2
(一)《春秋经传引得》语料介绍 2
1.语料来源和样例 2
2.语料标注 3
(1)人名 3
(2)地名 3
(3)时间 3
(二)BERT模型简介 4
(1)位置信息嵌入 5
(2)单词嵌入 5
(3)句子嵌入 5
1.Transformer模型简介 5
2.BERT的在本实验中的主要用法 6
二、实验介绍 6
(一)模型实验介绍 6
(二)实验准备 7
1.精语料切分 7
2.预训练层数和使用工具 7
3.初步测试数据集 7
4.设置测试集与训练集比例 7
(二)实验步骤 8
1.第一次试验 9
2.第二次实验 9
3.第三、四和五次实验 9
(1)未分词的《春秋经传引得》语料中人名实体识别 9
(2)未分词的《春秋经传引得》语料中人名实体识别 9
(3)未分词的《春秋经传引得》语料中人名实体识别 10
4.第六次实验 10
三、结果分析 10
(一)测试标准 11
1.准确率,又称查准率(Precision,P) 11
2.召回率,又称查全率(Recall,R) 11
3.F值 11
(二)实验结果展示 11
(三)结果分析 12
1.实验效果 12
2.BERT模型是否适合古文命名实体识别 13
3.实验中影响因素分析 14
(1)语料规模 15
(2)实体本身 15
(3)模型 15
四、对未来展望 16
五、致谢 16
参考文献 16 *51今日免费论文网|www.51jrft.com +Q: ¥351916072¥ 

表11 语料样例 3
表12 命名实体标记集 3
表13 语料基本格式 4
表21实验中训练集与测试集语料比 8
表22实验的基本信息 8
表31 第三到六次实验结果结果汇总 11
图11模型架构 6
基于BERT的《春秋经传引得》命名实体识别
摘要
随着人工智能的相关领域不断发展成熟,对于古文处理的计算机技术也持续发展。古文信息话程度的加深使得一些可以作用在现代汉语中的处理方法也同样可以用在古文处理上来。通过对人名、地名和时间对《春秋经传引得》语料进行命名实体识别工作进一步实现古文信息的集中处理。利用自然语言处理的BERT模型,以字节为单位,将文本中所包含的语义信息输入模型,进行准确率、精确度和F值的效果分析。进行十折交叉实验以及特征值的比较得到结果。本实验用F值来度量实验效果。经过分词的语料中F值最高达到91.38%,在进行平均求F值的情况下单独的人名识别的正确率能达到89.59%。因为在古汉语处理的研究中,在某一时期的语言风格以及语义表达大体类似,所以该研究可以广泛用于同类型的缺乏训练的语料的古汉语命名实体标注工作中,能在古汉语的语言初始处理阶段对已分词的语料进行命名实体识别工作,同时本实验也可以对未分词的语料进行识别减轻了信息处理的工作量而且高的F值保证了处理的精确程度。
NAMED ENTITY RECOGNITION OF THE INDEX ON SPRING AND AUTUMN ANNALS AND THE THREE COMMENTARIES BASED ON BERT
ABSTRACT
With the continuous development of artificial intelligence related fields, especially the Natural Language Processing branch, the computer technology for ancient text processing also continues to develop. Through the names of people, place names and time to identify the naming entities of the corpus of the Index on Spring and Autumn Annals and the Three Commentaries, a classical writing about the history of the Spring And The Autumn period in ancient China. By using the natural language processing Bert model, the semantic information contained in the text is input into the model with the unit of words to analyze the accuracy, accuracy and the effect of the F value, and the results are obtained through the cross experiment of 10 fold and the selection of characteristic values. The highest F value is 91.38% in the segmented corpus, at the same time the correct rate of individual name recognition can reach 89.59% in the case of macro average F value of the unsegment corpus which can represent the quality of the corpus. Because in the study of ancient Chinese language processing, the language style and semantic expression are similar in a certain period, this study can be widely used in the tagging of ancient Chinese named entities of the same type of lack of training corpus, and can identify the named entities of the segmented corpus in the initial processing stage of ancient Chinese language. At the same time, this experiment can also identify the non segmented languages Material identification reduces the workload of information processing and high F value ensures the accuracy of processing.

原文链接:http://www.jxszl.com/jsj/xxaq/606952.html