"景先生毕设|www.jxszl.com

词汇层级标注的汉英典籍平行语料库构建研究【字数:12514】

2024-11-03 10:55编辑: www.jxszl.com景先生毕设

目录
摘 要 II
关键词 II
ABSTRACT III
KEY WORDS III
一、《论语》语料分析 2
(一)《论语》的语料价值 2
(二)《论语》的语料特征 2
二、平行语料库的构建过程要点 2
(一) 词对齐难点 3
1. 映射关系复杂 3
2. 特定用法和语言特色增添了对齐难度 3
(二)本研究平行语料库构建过程 3
1.汉英语料的采集 3
2.分词处理 4
3.词对齐标注 5
三、平行语料库标注结果分析 7
(一)数据清洗 7
(二)关键词词频统计 7
1.中文关键词词频统计 7
2.英文关键词词频统计 8
3.词对齐标注结果关键词词频统计 9
4.词对齐标注结果多对一分析 11
(三)词云文本数据可视化 13
(四)构建共词矩阵 15
(五)SPSS聚类分析 15
四、结论及建议 19
(一)影响词对齐效果的因素 19
1.分词效果 19
2.汉语和英语的语法结构不同 19
3.汉对英存在一对多情况 19
(二)本平行语料库存在不足 19
1.对齐强度较弱 19
2.存在误标注 19
3.语料库规模较小 19
(三)基于本平行语料库的研究展望 19
致谢 21
参考文献: 22
附录1:词对齐多对一标注结果表 23
词汇层级标注的汉英典籍平行语料库构建研究
摘 要
随着深度学习技术的发展,基于古文典籍的机器翻译近年来迅速崛起。《论语》是儒家的经典著作,其涵盖了历史、文化、思想、政治、语言等学科,在我国历史上研究深远。因此,构建面向《论语》词对齐的平行语料库,对于汉语的自然语言处理研究、上古汉语研究、上古历史文化研究、哲学思想研究及古代汉语教学都有着重要的意义。首先,对 *51今日免费论文网|www.51jrft.com +Q: *351916072
从中国哲学书电子化计划官网上收集的来自不同篇目的汉语短句根据句意进行手工分词,再对应其平行英文语句,找到平行句对中与已被切分好的汉语语词有翻译对应关系的英文短语,进行手工对齐标注,没有对应关系的英文语词则用NULL进行标记,对论语的1561个短句逐一进行词对齐标注。完成对语料的预处理之后,本文利用文本题录信息统计分析对所生成的论语语料库中的中英文关键词进行词频统计,并制作了词云对文本数据进行了可视化,在此基础上发现论语中出现的高频词,再运用“书目共现分析系统”形成了一个31×31的高频关键词共词矩阵,并且对中文和英文以及中英混合的数据都进行了计算。本文还运用SPS20.0统计分析软件,采用Euclidean距离模型对论语与料库高频关鍵词共词矩阵进行多维尺度分析,得到研究主题的可视化知识。最后总结了影响词对齐效果的因素、本平行语料库存在的不足及基本本平行语料库的研究展望。
引言
《论语》是上古汉语的经典代表之作,以《论语》作为调查对象,无疑为古汉语翻译进一步研究打下了良好的基础。
(一)《论语》的语料价值
《论语》我国儒家思想的奠基作品。也是目前记录孔子思想和言行最为权威的一部著作。从内容上看,涵盖了历史、文化、思想、政治、经济、文学甚至语言等学科,在我国历史上影响深远。现如今,翻译《论语》变为了中外文化交流、弘扬我国传统文化的有效渠道,最有名的两个译文版本就是辜鸿铭和安乐哲的英译本,这两个版本的翻译都为中外文化进行作出了巨大贡献。[9]但是有关《论语》的相关翻译研究依然比较薄弱,因此,构建面向《论语》的平行语料库可以为源语言与目标语言间的互动研究建立良好的数据支撑。
(二)《论语》的语料特征
从成书年代来看,《论语》成书于战国初期,约公元前4世纪;从内容来分析,《论语》主要记录了孔子及其门人的思想言行;从文体的角度,《论语》是散文,主要写作方式是以语录的形式叙述和描写的。[10]
与现代汉语不同,通常上古汉语的单字往往可以表达一个完整词语要表达的词义,而《论语》又是典型语录文体,因此本研究希建立基于《论语》的平行语料库,希望可以帮助语言学研究者基于翻译学角度可以更深层次地学习古文遣词和用词风格。
二、平行语料库的构建过程要点
在构建面向《论语》的平行语料库的过程中,核心是词对齐的实现,机器翻译训练过
程的训练需求通常要求大量人工标注好的词对齐数据,主要有以下要点。
词对齐难点
映射关系复杂
在基于整篇对齐和单句对齐的自然语言处理任务中,源语言与目的语之间一般都是一对一的关系模型。但基于词对齐的自然语言处理任务中,存在五种复杂的对齐关系模型,分别有:单词对单词、单词对多词、多词对多词、多词对单词和空对齐,这使词对齐的难度大幅提升。[11]
例如:
“问于桀溺”的英文翻译是“Zi Lu then inquired of Jie Ni”;“子路问曰”的英文翻译是“Zi Lu said to him”;“子路问成人”的英文翻译是“Zi Lu asked what constituted a complete man”,同样是“问”字,在《论语》英文翻译中就有不少于三种翻译形式,存在一对多的对齐关系。
特定用法和语言特色增添了对齐难度

原文链接:http://www.jxszl.com/jsj/xxaq/607031.html