基于tfidf与word2vec的左传人物属性研究【字数:11328】
目录
摘要 IV
关键词 IV
Abstract V
引言
引言 1
一、文献综述 1
(一)古籍数字人文概述 1
(二)汉语关键词抽取概述 2
(三)文本相关词抽取概述 3
二、研究设计 6
(一)研究思路概述 6
(二)研究流程图 6
三、语料预处理 7
(一)人物文档库建立 7
(二)属性词筛选 8
四、关键词抽取 9
五、词向量模型的建立及公式实现 10
(一)使用工具与环境 10
(二)Word2Vec词向量模型建立与使用 10
(三)《左传》人物属性公式建立 11
六、可视化结果展示与测评 13
(一)结果测评 13
(二)数据可视化及分析 14
七、总结 17
致谢 17
参考文献 18
目录
图 11 神经网络语言模型 4
图 12 CBOW与Skipgram模型对比 5
图 21 研究流程图 6
图 31 部分人物文档 7
图 32 人物文档内容部分示例 8
图 41 TFIDF算法关键语句 9
图 42 部分关键词抽取结果 10
图 51 晋悼公属性雷达图 14
图 52 晋景公属性雷达图 14
图 53 晋赵武属性雷达图 15
图 54 晋季武子属性雷达图 15
图 55 宋华元属性雷达图 15
图 56 卫州吁属性雷达图 16
目录
表 11 Word2Vec的一些参数 5
表 31 属性词示例 8
表 41 人物属性公式字母含义 12
表 51 人物属性预测结果对比 13
表 52 人物属性真实值与预测值的差值 13
基于TFIDF与Word2Vec的左传人物属性研究
*51今日免费论文网|www.51jrft.com +Q: ¥351916072$
摘 要
文本挖掘、文本可视化是古籍数字人文领域的重要课题。本文提出了有关古籍文本人物属性的表达公式,以实现古籍文本重要人物属性可视化。研究采取的原始语料为著名的春秋典籍《左传》。研究过程中,首先将分好词的语料做预处理工作,包括去除停用词、字体转换、语料分割等。然后用TFIDF抽取关键词作为权重赋值的依据,用Word2Vec结合预先筛选的属性词预测相关词,最后结合给出的公式计算出每个人物对应属性域的权值,最终得到《左传》100余位重要人物的五边属性雷达图,实现可视化,进而可分析出《左传》对于不同人物的描写特点。结果显示,由该公式预测的人物属性分布,与实际文本对比后,宏观准确率可达 。其局限性在于,未能彻底消除古汉语的通假、多义特性对结果的影响;词向量训练模型的语料规模较小,结果容易出现偏差;可移植性不强,对原始语料的格式要求苛刻。
RESEARCH ON THE CHARACTER ATTRIBUTES OF ZUOZHUAN BASED ON TFIDF AND WORD2VEC
ABSTRACT
Text mining and text visualization are important subjects in the field of digital humanities in ancient books. In order to realize the visualization of the important characters attributes in ancient books,the research raised a expression formula of the characters attributes in ancient books. The original corpus,which used in this study, is zuozhuan,which is a famous corpus of ancient books.In the process of research, the words which is already divided in the corpus,should be preprocessed first, including the removal of stop words, font conversion and corpus segmentation. Then we use TF IDF extracting keywords as the basis of weight assignment, use Word2Vec combined with the screening of the properties of the words are related to predict in advance word.finally, combined with the formula given to calculate the weights of each character corresponding attribute domain, end up with zuozhuan, more than 100 important five attributes entirely, visualization, which can analyze the zuozhuan characteristics to the description of different characters. The results show that the macro accuracy of the distribution of character attributes predicted by the formula can be achieved when compared with the actual text. Its limitation lies in that it has not completely eliminated the influence of the characteristics of pastimes and polysemy on the results of ancient Chinese. The corpus size of the word vector training model is small and the result is prone to deviation. The portability is not strong, and the format of the original corpus is demanding.
原文链接:http://www.jxszl.com/jsj/xxaq/606962.html