最大熵模型在评论情感分析中的应用研究
目录
摘 要 I
ABSTRACT II
第一章 绪论 1
1.1 课题背景及研究意义 1
1.2 国内外情感分析领域的研究现状 2
1.3情感分析的应用领域 4
1.3.1 事件分析 4
1.3.2 网络舆情分析 4
1.3.3垃圾邮件
*景先生毕设|www.jxszl.com +Q: %3^5`1^9`1^6^0`7^2#
过滤 4
1.3.4产品评论分析 5
1.4 课题主要研究内容 5
1.5论文组织结构 6
第二章 情感分析的相关技术综述 7
2.1 情感信息的分类 7
2.1.1 主客观信息分类 7
2.1.2 主观信息的情感分类 7
2.2 自动分词技术 8
2.2.1基于统计的分词技术 8
2.2.2基于字符串匹配的分词方法 9
2.2.3基于理解的分词方法 9
2.3 词性标注技术 9
2.3.1基于规则的方法 10
2.3.2基于统计的方法 10
2.4 情感信息的抽取 10
2.5 常用的特征选择算法 11
2.5.1文档频率 11
2.5.2 信息增益 12
2.6 文本的分类算法 12
2.6.1 k近邻算法 12
2.6.2 Naïve Bayes分类算法 12
2.6.3支持向量机 13
2.6.4最大熵算法 13
2.7本章小结 14
第三章 评论语料预处理 15
3.1数据集的特性 15
3.2转折词的处理 16
3.3评论语料的分词及词性标注 18
3.4评论语料集正负评论标注 20
3.5评论语料训练集和测试集的划分 21
3.6构建情感词典 22
3.7预处理后的训练集和测试集格式 23
3.8 构建用于特征选择的FeatureWordHash文件 24
3.9本章小结 25
第四章 分类器的设计与实现 26
4.1开发环境 26
4.1.1 开发平台简介 26
4.1.2 开发语言简介 26
4.2系统框架 26
4.3 最大熵 27
4.3.1最大熵理论 27
4.3.2最大熵模型原理推导 27
4.3.3最大熵模型的参数估计 30
4.4 分类器设计 30
4.4.1特征提取模块的设计 31
4.4.2分类器模块的设计 31
4.5分类器实现 32
4.5.1特征提取模块的实现 32
4.5.2分类器模块的实现 34
4.6实验结果与分析 37
4.6.1评论数据集选择 37
4.6.2正负向评论在数据集中的分布 37
4.6.3实验结果分析 37
4.7本章小结 39
第五章 总结与展望 40
致谢 42
参考文献 43
附录:英文文献翻译 46
第一章 绪论
1.1 课题背景及研究意义
随着互联网的普及,让越来越多的用户能够参与到互联网的建设中去,传统依赖于纸质的信息传递方式逐渐被互联网的信息共享方式所取代。《第33次中国互联网络发展状况统计报告》是中国互联网络信息中心(CNNIC)在2014年1月发布的一项统计报告,其中数据显示:截至2013年12月底,中国网民规模达到6.18亿,互联网普及率较上年底提升3.7个百分点,达到45.8%。
由于互联网的普及,人们的生活也随之发生翻天覆地的变化,2009年至今,多种商务类应用百花齐放,引领网络应用的发展潮流。其中以旅行预订、网络购物、网上支付为典型代表。其中以网络购物发展最为迅速,越来越多的网民选择在网上购物,她们对于足不出户购买商品的方式很是享受。全球著名的市场调研公司尼尔森公司,通过对全球范围内的消费者信任的广告方式进行调研给出了一份名为《Global Trust in Advertising and Brand Messages》的报告[1],该报告指出:朋友和家人对于产品的口头推荐,仍然是最具影响力的广告方式,也是消费者最信任的广告方式。其次则是网络上消费者对商品的主观评论,其中有70%的被调查的消费者表示在选择商品时会使用在线评论作为参考。媒体报道和品牌官方网站则分别排在第三和第四位。与排在首位的家人和朋友的推荐相比,由于在线评论具有评论文本数大、商品种类繁多的特点,因此有较强的适应性。然而,使用在线评论的弊端在于网络上的海量评论大多杂乱无章、无结构化可言,仅仅利用人工的方法进行情感倾向的判断几乎是不可行的。因此,对海量的评论进行情感信息的挖掘、分析以此来判断消费者的情感倾向已成为当今计算机领域研究的热点。
文本情感分析顾名思义是指对带有主观情感色彩的文本进行分析、处理和归纳,最终判断该文本的主观情感倾向是高兴还是悲伤,或者该文本对某一事件表达的反对还是赞同的观点等等。这一过程也可以称为意见挖掘,简单来说就是对说话人的情感、意见等进行挖掘、分析、推理的过程[2]。具有倾向性的主观评论称作情感信息,评论情感分析指的是对包含消费者情感、喜好、观点的主观性评论进行挖掘分析,从非结构化的评论文本中抽取、组织、整理出消费者以及商家感兴趣的内容转化成结构化的形式,将挖掘出的情感信息快速、全面的提供给消费者以及商家,他们可以从中得到两种信息:一是评论中消费者对于某种商品的整体倾向性,二是对于产品某一属性的评价信息。通过情感分析技术,可以帮助消费者更加快速、全面的了解商品的详细信息,提高商品购买的满意度。与此同时,商家也可以根据情感挖掘的结果了解消费者对于商品的满意程度以及同类产品的竞争性,从而进行相应的决策调整。因此,在当今电子商务迅猛发展的时代,充分挖掘网络上海量商品评论的情感信息,对消费者和商家有着相当重要的意义。
基于最大熵原理构建的分类器较传统的情感分析方法在特征选择方面有较强的独立性,即在特征选择阶段,开发者无需思考如何使用这些选择出来的特征;再者该分类器具有较强的灵活性,即可以不需要任何额外的独立假定或内在约束;其次该分类器可以结合丰富的信息应用于不同的领域。
基于以上背景,如何快速、高效地对互联网上海量的商品评论进行情感挖掘成为研究关注的重点。因此,本文以前人在评论情感分析方面的研究成果为基础,以中文在线评论为研究内容,重点研究了基于最大熵原理的有监督的机器学习方法在评论情感分析中的应用。
原文链接:http://www.jxszl.com/dzxx/dzkxyjs/48216.html