"景先生毕设|www.jxszl.com

基于word2vec的高校娱乐领域微博情感倾向分析(附件)【字数:12940】

2024-02-25 17:05编辑: www.jxszl.com景先生毕设
随着互联网的高速发展和迅速普及,越来越多的年轻人喜欢通过网络获取信息、发表观点。微博作为新兴的热门社交平台,得到了广大青年学生的喜爱并通过微博发布了大量的內容。合理利用这些数据內容分析用户的情感倾向成为了情感研究中的一个重要课题,其中领域情感词典是情感分析最重要的基础。本文总结了国内外学者在文本情感分析方面的研究情況,并阐述了领域情感词典构建和中文微博情感分析的理论知识和研究方法。在前人构建的高校微博情感词典的基础上,利用Word2Vec工具表征词向量构建了高校娱乐领域微博情感词典,并分析了高校娱乐领域微博情感倾向及强度,指出目前高校学生娱乐生活存在的问题,提出了建议。
目录
摘要 1
关键词 1
Abstract 1
Key words 1
引言 2
一、相关研究综述 2
二、高校娱乐领域微博情感词典的构建研究 3
(一)总体研究方案 3
(二)文本聚类 4
(三)扩展词典的构建 4
1.获取种子词集 4
2.扩展种子情感词典 4
3.情感词强度的赋予 5
(四)微博语料情感计算 5
1.情感倾向加权词典 5
2.情感倾向和强度计算 5
三、高校娱乐领域微博情感词典构建的实现 6
(一)数据预处理及聚类 6
1.数据预处理 6
2.文本聚类 6
(二)种子词集的获取 7
1.获取娱乐领域微博语料词集 7
2.构建种子情感词典 7
(三)扩展词典的构建 7
1.扩展种子情感词典 8
2.构建网络情感词典 8
四、高校大学生娱乐领域微博情感倾向分析 8
(一)基本数据统计 8
(二)基于娱乐内容的情感分析 9
1.旅行类微博情感分析 9
2.影视类微博情感分析 9
3.游戏类微博情感分析 10
五、建议 11
六、结语 12
致谢 12
参考文献 13
 *景先生毕设|www.jxszl.com +Q: ^351916072
图1 构建方案流程图 4
图2 高校娱乐领域微博情感词典的构建 5
表1 部分娱乐类微博示例 7
表2 微博语料词汇示例 7
表3 种子情感词示例 7
表4 扩展情感词集示例 8
表5 网络情感词示例 8
表6 基本数据统计 8
表7 部分旅行类微博示例 9
表8 部分影视类微博示例 10
表9 部分游戏类微博示例 11
基于Word2Vec的高校娱乐领域微博情感倾向分析
引言
近年来,情感词典的构建吸引了近年来,情感词典的构建已经成为很多学者关众多学者的关注,与之相关的研究也逐渐增多。基于词典资源的方法和基于语料库的方法是目前使用最多的两种构建情感词典的方法。基于词典资源的方法主要是利用一些已经权威且构建完备的情感词典资源,如WordNet、HowNet、同义词词林等中的同义词、反义词、上位词、下位词和注释来建立情感词典。国外学者在较早的时期就开始了构建情感词典的研究,最著名的是基于Word Net构建的Senti Word Net,Word Net中的每个同义词都在Senti Word Net里标注出了其正面和负面情感强度。在此基础上,国内外的学者们对情感词典的构建进行了优化。Hu和 Liu[1]以手动的方式选取一些带有情感色彩的词作为种子情感词集,并利用WordNet中的同义词和反义词构建扩展的种子情感词集,最终得到完善的情感词典。Kamps[2]等人则根据词的关联构建了一张关系图,即根据WordNet的同义词集在每两个同义词之间建立一条边。Esuli等[3,4]也是人工建立了褒义情感词集、贬义词情感词集等几个种子词集,并利用 WordNet的词关系来扩展种子集,与Hu和 Liu不同的是,他们是通过训练注释文本以判断形容词的情感倾向。
中文情感词典的构建的研究起步较晚,因此相关的研究成果不多。最早的中文情感词典是由董振东和董强建How Net情感词典,目前也是使用最广泛的中文情感词典;HowNet将概念以及概念的属性之间的关系构成一个知识关系网络,除了收录汉语词汇还包含了英语情感词汇。在Senti Word Net和How Net的基础上,我国学者进行了深入研究。朱嫣岚[5]等通过判断情感词语基准词之间的联系来判定词语的情感倾向,基准词为HowNet中褒贬情感色彩强烈且具有代表性的词语。周咏梅[6]等人则是通过义元的方式计算情感词强度,义元为HowNet中每个中文词语对应的英文翻译,利用Senti Word Net确定每个义元所处的同义词集合,通过计算情感强度的平均值最终得到该中文词语的情感强度值。
基于语料库的方法是假设共同出现在语料库中的情感词具有相同的情感倾向,计算情感词的情感倾向时用语料的上下文信息、共现信息计算。但一个形容词往往可能具有几个不同的情感倾向,即使在同一个领域中,同一个情感词在修饰不同事物特征时也可能会表现出不同的情感倾向。Ding和Liu[7]考虑到这一点,于是在判断情感词的情感倾向时以语句文本和连接词作为参考依据。Huang等[8]通过抽取能够改变情感倾向的修饰词和转折、并列关系来作为限制条件,以及根据PMI(点态互信息量)建立情感词之间的联系图,基于约束的标签传播算法得到情感倾向。李勇敢等[9]基于中文依存句法的分析,结合传统的词频统计规则,建立了按照词频构成的情感词库,并提出了识别新词的方法。阳爱民等[10]在搜索引擎的搜索结果基础上,计算种子词与其他词的SOPMI来 判定情感极性。殷春霞[11]等发现如果一对情感词汇与一种上下文关系对应,且出现频率很高,那么这两个情感词情感倾向关系即为上下文关系。

原文链接:http://www.jxszl.com/jsj/xxaq/564012.html