基于上下文语境的真词错误校对系统以计算机为例【字数:10466】
目录
摘要 1
关键词 1
Abstract 1
Key words 1
引言 2
1 选题背景 2
1.1 问题的提出 2
1.2 国内外研究状况 2
1.2.1 国外研究状况 2
1.2.2 国内研究状况 2
1.3 研究的目的和内容 3
1.3.1 研究目的 3
1.3.2 研究内容 3
2 文本库的获取与预处理 4
2.1 文本库的获取 4
2.1.3 真词混淆集 4
2.2 文本预处理 5
2.2.1 步骤与流程 5
2.2.2 工具与方法 6
2.2.3 预处理结果 6
3 关键技术 8
3.1 ngram模型 8
3.1.1 模型概述 8
3.1.2 评分标准 8
3.1.3 计算公式 8
3.2 上下文语境模型 9
3.2.1 模型概述 9
3.2.2 评分标准 9
3.2.3 计算公式 10
3.3 词语搭配度模型 10
3.3.1 模型概述 10
3.3.2 评分标准 10
3.3.3 计算公式 10
3.4 词性序列相似度模型 11
3.4.1 模型概述 11
3.4.2 评分标准 11
3.4.3 rolling hash算法 11
3.4.4 winnowing算法 11
3.4.5 相似度计算 12
4 真词错误校对系统的建立和测试 12
4.1 评价指标 12
4.2 测试与分析 13
4.3 总体设计及界面展示 17
5 总结与展望 18
致谢 19
参考文献 19
基于上下文语境的真词错误校对系统
引言
引言
1 选题背景< *景先生毕设|www.jxszl.com +Q: ¥351916072$
br /> 1.1 问题的提出
1.2 国内外研究状况
1.2.1 国外研究状况
文本自动校对技术是自然语言处理的重要应用之一,也是自然语言处理领域研究的难点。现阶段,国外已有很多关于英文文本自动校对的研究,相关方面的技术发展较为成熟。
2015年,Sumit sharmaa , Swadha Gupta[9]提出了一种三元模型和贝叶斯模型结合的方法,校正英文文本中的拼写错误;2017年,S. M. Dashti[10]基于三元模型,通过使用上下文无关语法区分搜索文本中的单词项,重点检测和纠正句子中的多个真词错误;2018年,S. M. Dashti, A. K. Bardsiri , V. K. Bardsiri[11]基于搜索空间中的约束语法对校正候选集进行区分,提出了一种基于统计和句法知识的真词错误校对方法。
1.2.2 国内研究状况
我国在中文文本自动校对方面的研究近几年才得到逐步发展,类似研究相对较少,尚处于初步的发展阶段。现有的研究主要如下。
2015年,石敏[8]基于概率统计模型,使用模糊匹配算法,实现了中文文本自动校对系统;2016年,刘亮亮等人[5]基于局部上下文特征的组合,进行了中文真词错误自动校对研究;2017年,刘海波[6]基于错字词知识库的自动构建和模糊分词的非词错误自动校对,实现了非词错误自动校对系统;2017年,顾德之[7]基于词法及句法分析技术和统计模型,进行了中文真词错误自动校对方法研究;2018年,叶俊民等人[1]基于混淆词集和概率统计模型,进行了一种中文真词错误检测与修复的方法研究。
1.3 研究的目的和内容
1.3.1 研究目的
1.3.2 研究内容
(1)获取用于模型训练的文本数据,并对其进行预处理。
获取《计算机学报》上的论文摘要作为文本语料库,并进行人工校对和整理。为确保后续步骤的正常进行,需要将文本数据进行分词、词性标注、频次统计的预处理。本系统采用Jieba分词工具进行文本分词和词性标注的预处理。
(2)建立计算机术语词典。
基于搜狗输入法的官方计算机术语词库,解析获取计算机术语词条,并将词条的词性都标注为名词,整理为计算机术语词典。将该词典作为自定义词库导入分词工具,使分词结果更加准确。
(3)构建真词混淆集。
基于电子版《汉语同音近音词辨识》,整理建立真词混淆集,以便提供候选词。
构建真词样本集。
基于摘要文本库,对其进行分词处理,将分词结果保存为真词样本集,便于后续进行词频统计,建立真词频次集。
(5)构建词性序列集。
对摘要文本库进行分词和词性标注,将构成每个句子的真词词性记为一个词性序列,建立词性序列集,便于后续建立词性序列相似度模型。
(6)构建词语搭配集。
基于分词后的摘要文本库,对其进行“动词+名词”二元组频次统计,构建词语搭配集,便于后续建立词语搭配度模型。
(7)构建真词频次集。
基于真词样本集,统计每个真词与其相邻真词的共现频次、与其右边相邻两个真词的共现频次、与其邻近窗口为3的真词的共现频次,分别建立二元、三元、上下文真词频次集,以便后续建立ngram模型、上下文语境模型。
(8)构建关键模型和检错纠错系统。
基于目前文本自动校对系统常用的ngram模型、上下文语境模型、词语搭配度模型、词性序列相似度模型,构建使用不同组合模型的各种系统。输入测试文本,经过分词处理,对每个真词及其混淆词进行系统综合评分,以综合分数最高的真词作为修改建议。
将各种文本校对系统进行对比。
用同样的数据集对各个系统进行测试,并用相同的评价指标对系统的检错纠错能力进行判断和评价,检验各系统的校对效果,得出最终推荐系统。
原文链接:http://www.jxszl.com/jsj/jsjkxyjs/563903.html