数字人文下的先秦汉英典籍词性自动标注研究(附件)
目录
摘要 2
关键词 2
Abstract 2
引言
引言
一、相关研究综述 3
(一)词性标注的基本理论 3
1.自然语言处理的涵义 3
2.词性标注的涵义 3
(二)词性标注基本的研究方法 4
1.基于规则的方法 4
2.基于统计的方法 4
3.基于规则和统计相结合的方法 4
(三)词性标注研究现状及应用 5
(四)词性标注存在的问题 5
二、先秦典籍语料及词性标记简介 5
(一)先秦典籍语料来源及先秦古汉语词性标签 5
(二)先秦英文典籍语料来源及英文词性标签 6
三、先秦典籍词性自动标注模型的训练及实验 6
(一)条件随机场模型 6
(二)特征模板的确定 7
(三)先秦典籍词性自动标注实验 8
1.先秦古汉语词性自动标注实验 8
2.先秦典籍英文词性自动标注实验 9
(四)模型构建的流程和评价指标 9
(五)词性标注实验结果及标注语料分析 11
(六)词性自动标注模型应用 12
四、结语 13
致谢 13
参考文献: 13
图1 自然语言处理分解示意图 3
图2 英文词性标签 6
图3 *景先生毕设|www.jxszl.com +Q: ^351916072^
一阶隐马尔可夫模型有向图( A) 和线性链条件随机场无向图( B) 示意 7
图4 针对先秦典籍标注好的英文训练语料样例 9
图5 词性自动标注模型构建流程 10
图6 战国策平行语料词性自动标注示例 12
表1 先秦古汉语词性标签 5
表2 特征模板说明 7
表3 先秦典籍词汇长度分布表 8
表4 条件随机场下语料标注样例 9
表5 先秦典籍古汉语词性自动标注语料样例 10
表6 先秦典籍英文词性自动标注语料样例 11
表7 先秦典籍词性自动标注模型的测试性能 11
表8 先秦典籍英文词性自动标注模型的测试性能 12
数字人文下的先秦汉英典籍词性自动标注研究
Research on Partofspeech Automatic Tagging of PreQin, ChineseEnglish Classical Books under the Digital Humanities
Student majoring in Information Management and Information System ZHUANG Shimeng
Tutor WANG Dongbo
Abstract: Partofspeech tagging is an important part of information processing corpus construction, and it is also a basic work in the field of natural language processing. The automatic tagging of parts of speech has made great achievements in the field of modern Chinese, but there are few studies on ancient books and records, and many problems need to be solved. The status of the preQin classics in the field of ancient Chinese is extremely important. Therefore, this dissertation focuses on the study of the partofspeech tagging of English and Chinese classics in the preQin period under the digital humanities.This article mainly adopts the statisticsbased method to conduct a detailed investigation of the preQin ChineseEnglish classics, and determines the combination of feature usage, word length, and pronunciation for different locations. The combined feature template is combined with the conditional random field model (CRF) to obtain preQin ChineseEnglish classics. POS tagging model. The value F of the partofspeech tagging model under the digital humanity reaches 69.66%, achieves a strong reference and application value.
Key words: POS Tagging; preQin classics; Automatic Word Segmentation; Conditional Random Field Model
引言
随着信息技术和网络技术的不断进步和发展,计算机已经成为人类生活不可或缺的工具。计算机智能处理人类语言的技术,即自然语言处理(NLP)技术应运而生。词性标注(PartOfSpeech Tagging)作为其中较为基础的一种预处理程序,对后续的工作和课题研究都起着至关重要的作用。
原文链接:http://www.jxszl.com/jsj/xxaq/57787.html