"景先生毕设|www.jxszl.com

基于kmeans方法的典籍文本动词聚类研究【字数:11821】

2024-11-03 10:51编辑: www.jxszl.com景先生毕设

目录
摘 要 III
关键词 III
ABSTRACT IV
KEY WORDS IV
一、 词聚类研究综述 1
二、 研究思路及框架 2
(一)研究思路 2
1.文本预处理 3
2.构建词向量 3
3.聚类分析 3
(二)研究框架 3
三、 典籍文本预处理 3
(一)语料介绍 3
(二)词频统计 4
(三)词汇过滤 5
四、 典籍文本向量化方法及聚类算法研究 6
(一)word2vec 6
(二)kmeans 7
五、 算法测评 7
(一)实验描述 7
(二)参数调节 7
1.参数介绍 7
2.参数调优 8
(三)聚类结果与分析 10
1.模型效果展示 10
2.聚类结果展示 11
3.聚类结果分析 13
(1) 征战类动词聚类分析 13
(2) “死亡”类动词聚类分析 14
六、 结语 14
致谢 15
参考文献 16
图21 研究框架 3
图31 原始语料示例 4
图32 预处理后语料示例.........................................................................................................5
图41 CBOW模型.....................................................................................................................6
图51 初始参数....................................................................................... *51今日免费论文网|www.51jrft.com +Q: @351916072
..................................8
图52 轮廓系数图...................................................................................................................9
图53 代码截图 10
图54 输出结果 11
表31 《左传》词类统计表 4
表51 轮廓系数表 9
表52 聚类结果 11
表53 征战类动词类别表 13
基于kmeans方法的典籍文本动词聚类研究
摘 要
在数字人文研究趋势下,基于古汉语语料库以及深度神经网络算法,对典籍文本中的谓语动词做聚类研究。本文选取先秦典籍中篇幅最长的《左传》作为研究文本,首先对原始语料进行简繁转换、词汇过滤等预处理,然后使用word2vec工具构建文本语词向量,利用原始语料中的词性标注抽取出动词及其词向量,结合kmeans算法实现谓语动词聚类,并采用轮廓系数方式取得最优聚类效果。利用word2vec构建的词向量能够反映语词间的潜在语义关系,可以达到较好的聚类效果,轮廓系数达到0.776。最终将《左传》中出现的所有动词聚为四类,分别是:感情色彩偏向消极负面的label0;包含较多生僻词但主题不明确的label1;征战类动词label2;主要描述外交活动的动词集label3。结合《左传》相关人文研究,本文重点对征战类动词与表示“死亡”含义的动词进行分析。本研究的局限性在于:未能对语料进行深入的句法分析从而充分结合古文特点构建词向量;语料库较小,无法训练得到十分准确的语词向量;未能比对人工分类结果从而对聚类结果进行外部评价。

原文链接:http://www.jxszl.com/jsj/xxaq/606958.html