面向先秦典籍的诗经引用情况自动抽取及分布探究(附件)
目录
摘要2
关键词2
Abstract2
Key words2
引言(或绪论)3
一、研究综述3
二、《诗经》引用特征的挖掘4
三、引用《诗经》内容的自动识别4
(一)支持向量机模型和TFIDF算法5
1.支持向量机模型5
2.TFIDF关键词抽取技术6
(二)语料的选择和处理6
(三)特征的选取以及特征模板的制定7四、基于支持向量机的《诗经》引用情况自动抽取结果8
(一)模型性能评价指标8
(二)模型测试8
(三)基于支持向量机的《诗经》引用情况自动抽取结果分析9
1.引用数量分析9
2.引用类型及内容分析10
五、结束语 12
致谢13
参考文献14
图1 基于支持向量机的自动分类模型图5
图2 支持向量机模型5
图3 分词处理后的先秦典籍语料7
图4 引用文本标记7
图5 TFIDF特征值计算结果8
表1 引用文本Q的测试结果9
表2 引用文本S的测试结果9
表3 先秦典籍引用《诗经》数量统计9
表4 《论语》引用《诗经》情况11
面向先秦典籍的《诗经》引用情况自动抽取及分布探究
引言
引言
中华文化,源远流长。从我们的祖先创造文字,到出现诸 *51今日免费论文网|www.jxszl.com +Q: #351916072#
子百家争鸣的盛况,堪称凝聚了无数先民们的智慧、力量和财富。《诗经》作为悠久历史中最为耀眼的存在,是中国第一本诗歌文学典籍,也是我国文化部分独特又关键的存在,它的文学意义和社会意义不言而喻。各类文学作品引用《诗经》中的诗句形成了一种独特的文化现象,尤其是先秦典籍引用《诗经》更是达到了空前高峰。从古至今,许多学者对于《诗经》的引用情况的探究也是乐此不疲,相关的研究结果数不胜数。
本研究通过《吴子》、《谷梁传》、《论语》、《荀子》、《礼记》、《老子》、《公羊传》、《国语》、《周易》、《左传》、《韩非子》等24部先秦典籍初步人工抽取其对《诗经》的引用内容,并分析总结其引用特征,基于以上引用特征构建支持向量机模型,实现对先秦典籍引用《诗经》内容的自动抽取。最后针对抽取结果进行分析,包括引用数量、引用类型、引用内容分析,以探究《诗经》在先秦典籍中的分布情况,为现代对先秦典籍的研究提供支持。
一、研究综述
先秦典籍,简单的说,就是秦朝以前所创作的较为经典的书籍和诸子百家的著作;更大范围来说,包括关于先秦的所有文献著作、书籍。理解先秦历史,须读先秦典籍,探究中国文化,更要读先秦典籍[4]。大致来说,先秦典籍包括史书和子书,史书包括《谷梁传》、《左传》、《尚书》、《国语》等,子书包括《论语》、《管子》、《荀子》、《庄子》、《吴子》等。而在先秦典籍中,引用《诗经》内容甚是广泛,尤其是先秦诸子如孔子、墨子、庄子等大家在其作品中辩证道理时,频繁引用《诗经》的内容以提高可信度。《诗经》,这里指东汉之后由毛公流传下来的毛诗,即今本《诗经》三百零五篇。
引用信息的抽取在计算机与图书情报等领域拥有着不可忽视的地位,而且不断改进优化,随之产生许多方法。曾文等基于科技文献专用语特征并联系统计比较方法研究出了新的专用语提取方法[11]。汤亚芬基于条件随机场,利用特征模板,用先秦语料的十几万个词语来训练与测试,最终构建出先秦人名自动识别模型[9]。王东波等研究出一种经过优化的基于特征分析的引文数据提取技术[2],避免了之前的方法离不开抽取模板的缺点,另外还拥有多语言平台的好处。吕亚等研究出一种方式,首先由类的边界特征得出类的特征向量,之后基于这个特征向量对数据进行处理,构建支持向量机模型[25]。综上所述,引用内容的抽取方式大致有以下三种:1) 基于机器学习的方法;2)基于规则的方法; 3) 基于模板的方法。本文在《诗经》引用识别抽取上将采用基于支持向量机模型的方法,加入先秦典籍引用《诗经》的内外部特征以期获得更好的抽取效果。
由于《诗经》在先秦时期普遍流行,众多典籍都对其加以引用。是以,有关引用《诗经》概况的研究也犹如过江之鲫。冯晖基于先秦诸子的思维观念,使《诗经》处在春秋战国时期流行赋引的时代文化之下,再对其进行探究分析[1]。刘立志基于先秦典籍中出现的为数众多的引用《诗经》内容的典籍,来考查时代变迁和风俗流传,进而研究先秦学术的起源以及其发展情况[13]。王雯雯则对孔子在《论语》中引用《诗经》的内容进行详细解读,体现了《诗经》在孔子心中的关键地位,将它作为传道授业的重要工具[14]。张海燕在对详细分析了《中庸》引用《诗经》的内容后,探讨了《诗经》中诗句被引用的主要方式,或赋《诗》言志,或引《诗》为证[22]。本研究则通过对先秦典籍所引用《诗经》中诗句的提取与分析,着重探究其分布特征。
关于引用内容的辨别与提取,国内外有许多研究者都进行了大范围的探究。对于先秦典籍中引用的《诗经》内容进行抽取,是纯文本信息抽取,属于中文信息处理。引文内容抽取属于中文信息处理范畴,作为其中一个基本却又不可忽视的研究方向,能够应用在机器学习、本体构建和语义检索等许多研究领域。但是引文抽取这项任务繁复又艰巨,若仅仅通过人工手动提取,不单耗时费力,并且要求研究人员具备必要的语言学技能或者一些项目经验 [11]。另外,《诗经》特有的社会价值和文学价值使得其在先秦典籍中分布广泛且发挥着举足轻重的作用,不管是对于先秦民俗文化还是历史古迹的研究都可见一斑。因而,研究出一种效率好、可移植性强的《诗经》引用自动抽取方案并对其引用内容的分布特征进行探究意义非凡。
二、《诗经》引用特征的挖掘
本研究首先通过对《谷梁传》、《吴子》、《论语》、《荀子》等24部先秦典籍的阅读,人工抽取其中引用《诗经》的内容,并对其引用特征进行总结分析,初步概括出这些先秦典籍对《诗经》引用的几个特征,如下所示:
原文链接:http://www.jxszl.com/jsj/xxaq/57806.html