基于古白平行语料的句子对齐研究【字数:9764】
引言
目录
一、 相关概念及模型 2
(一)古代汉语与现代汉语 2
(二)机器翻译与机器翻译系统 2
(三)平行语料及句子对齐的概念 3
(四)句子对齐模型 3
二、 实验及结果分析 7
(一)语料 7
(二)句子对齐模型的建模 8
(三)相似度 9
(四)动态规划 9
(五)实验评测 10
(六)实验结果及分析 10
三、本研究的不足及展望 11
(一)本研究的不足 11
(二)研究展望 11
四、结语 12
引言
相关概念及模型
古代汉语与现代汉语
汉语同样具有悠久、灿烂的历史。五四运动之后,以白话文为主的现代汉语体系逐步建立,但古代汉语并未就此消失,其作为历史的、文化的符号继续存在于中国人民的生活当中。当下,国民经济充分发展,国家所倡导回归经典运动更是给了古代汉语一次新生。古代汉语的复兴,既是我们中华儿女对于我们中华文化的肯定,又是国家发展的助推器[1]。所以打通古代汉语和现代汉语的“任督二脉”是十分重要的。然而,我们现代人已经从古代汉语体系中脱离开来,我们对于古代汉语的使用并不像现代汉语这般得心应手[2]。二者在构词、语法等方面同样是存在很多不一样的地方,例如古代汉语习惯对主语进行省略,在现代汉语的理解下是不合理的。但是,现代汉语可以在古代汉语中找到其所具有的许多非常明显特点的渊源。
因此,基于古代汉语与现代汉语的古白对齐具有两个方面的重要意义,其一,古代汉语与现代汉语的翻译功能。从目前的研究成果来看,古代汉 *景先生毕设|www.jxszl.com +Q: *351916072*
语由于其封闭的语言特性,具有极大的歧义性,例如常见的共指歧义、实体歧义等,这对古代历史人文地理研究带来极大的不确定性。其二,实现对现代汉语体系的完善。现代汉语以当今世界使用最广泛的表意文字为基础构成了世界上最复杂的语言体系,例如,古代汉语所使用的繁体字和现代汉语所使用的简体字不能兼容,所以会使得相关人员的研究和学习变得十分困难[3]。在不同的语言环境下,不同的语句会表达出来意识可能是完全不同的。而通过这种跨越中华文明上下的古白对齐分析,将对现代汉语研究大有裨益,带来更多新的想法和方向。
(二)机器翻译与机器翻译系统
通过编写电脑程序,实现两种自然语言相互转换的过程被称为机器翻译,又被称为自动翻译。而机器翻译系统就是实现此功能的机器翻译程序系统。
机器翻译技术在50多年间发展迅速,并产生了两种不同的研究路线,即基于规则和逻辑的方法[3]。在机器翻译的发展过程中,首先出现的是以语言规则为基础的机器翻译,其核心任务就是要把规则库尽量全。利用提前建立的规则库来驱动程序进行,严格执行每一条句子的翻译工作,这种机器翻译系统的优点是,在较小型的封闭语料上非常有效。当然缺点也随之而来,主要有两点:第一,当规则库不能很好的覆盖语料的所有语言现象时,翻译系统的效果就会直线下降;第二,当歧义现象出现时,以规则为基础的机器翻译系统考虑句子的情况是无法做到,从而做到消除歧义。之后的机器翻译技术则致力于改进前者的问题,基于大规模平行语料库的整理分析统计的以语料为基础的方向应运而生,我们可以简称为基于语料的方向,在发展过程中又分道扬镳,分成了一种以统计为基础的机器翻译方法和另一种以实例为基础的机器翻译方法[4]。基于统计的方法实质上是将机器翻译过程看做声源的解析和编码最终去噪的过程。具体而言,是先利用翻译模型将原文转换成为乱序的译文,然后利用译文的语言模型解析、比对,最后将乱序译文组装成为一句合理语序的译文。基于统计的方法很明显的有机器学习的思想雏形,而真正极大的提高了机器翻译效果的方法是基于实例的方法。在基于实例的方法中,广泛的应用了机器学习的思想与技术,思想方面,以数据密集型范式为代表的大数据思想改变了这一领域的研究方式,技术上,深度学习、强化学习等以神经网络为代表的技术日趋成熟,极大的提高了翻译系统的性能,思想与技术的结合,则社会应用广泛的普及,例如,有道翻译、谷歌翻译等翻译软件正一步步改变我们的学习生活。
(三)平行语料及句子对齐的概念
平行语料也称为对应语料,在英文定义上,平行语料和平行语料库都是parallel corpora。平行语料库的建设中,最关键的确定对齐单位的大小,在目前的平行语料库建设中,常见的有字词级别、语句级别、篇章级别等。
句子对齐是将源文本中的句子映射到目标文本中对应翻译的过程[5]。对齐,简而言之,就是在卷帙浩繁的源文本中找到同样卷帙浩繁的目标文本中相对应的文本片段并使之匹配的过程,而句子对齐到了平行语料库中,则决定了平行语料库的对齐单位大小[6]。
在本文中我们的实验是基于《左传》《战国策》《史记》《汉书》《后汉书》《三国志》六部我国古代经典史书的文言原文与现代译文的句级对齐平行语料来进行的。
(四)句子对齐模型
本文采用三层BP神经网络模型模型模拟古文原文与现代汉语译文的方法,选择句子长度特征、对齐模式特征、汉字信息特征为特征值,在考虑句子长度和汉字信息的情况下,哟个动态规句的方式完成聚酯对齐。
1.基于长度的模型
在基于长度的模型被提出之前,有一个假定,即:在基于长度的模型中,其语言元素在原文和译文的句子放在文章中的顺序没有太大变化。 此时,原始句子和翻译句子的长度密切相关,具体的说,打存在于原文的短句被翻译成译文后,译文仍应当是短句;当存在于原文的短句被翻译成译文后,仍为短句。Church[7]和 Gale[8]提率先出以长度的为基础的模型并运用于实验中。在 Church和 Gale的实验中,他们只考虑了1-1、1-0、0-1、1-2、2-1和2-2六种对齐模式,对于不太常见的,如2-1,31等对齐模式,基于长度的模型错误率极高,甚至在3-1,3-2的对齐模式中,此模型是完全错误的。
基于长度的模型基本上实现了对相似长度句子之间的对齐和11模式下的更好性能,但是对于如2-1,31等那些较罕见而较难匹配对齐模式,其对齐性能要大打折扣。
原文链接:http://www.jxszl.com/jsj/xxaq/564019.html