科技类中文文本的情感分类研究【字数:11951】
目录
摘要 II
关键词 II
ABSTRACT III
KEY WORDS III
一、情感分类概念 1
二、国内外研究进展 1
三、相关技术理论 3
(一)文本预处理 3
(二)特征选择 5
1.信息增益IG 5
2.countvectorizer 6
3.word2vec 6
(三)分类方法 7
1.朴素贝叶斯(Naive Bayes, NB) 7
2.逻辑回归模型(Logistic Regression, LR) 7
(四)工具库snownlp 8
四、研究过程 8
(一)数据抓取 8
(二)预处理 9
(三)算法实现 9
(四)测试与结果 10
(五)研究结论 10
(六)存在的问题 11
五、总结 11
致谢 12
参考文献 12
图 41 抓取数据局部示例 9
表 41 不去停用词时各类方法组合分类的准确率 10
表 42 去停用词时各类方法组合分类的准确率 10
科技类中文文本的情感分类研究
摘 要
互联网在科技不断进步的大环境中日渐普及,越来越丰富的信息资源以线上形式出现,并因其方便、及时等特点受到人们的青睐;与此同时自然语言处理的研究日益流行,对文本进行情感分类作为自然语言处理的基础步骤具有很大的重要性,越来越多的学者在此方向上进行研究,目前对于新闻评论、社交网络等方向的情感分类研究都取得一定成果。近年来的学术不端事件,引起了学术界甚至大众的普遍关注,科技类文本也引起了各界人士的密切关注。本文针对情感表达比较隐晦的科技类中文文本进行情感分类研究,对科技类中文文本进行情感分类可以有效的进行预测、分析大众舆论,对突发事件的发生进行有效防范。本文抓取了中国科技网与新浪新闻科技板块的数据进行文本预处理后,在参考之前学者的研究基础上分别选择了几种特征提取方法(信息增益IG,countvec *51今日免费论文网|www.51jrft.com +Q: ^351916072*
torizer,word2vec)与分类方法(朴素贝叶斯NB,逻辑回归模型LR)进行组合,另外还使用了python现有工具库snownlp,并将是否进行去停用词操作以及特征词的提取个数设为变量,计算其在不同情况下分类的准确率,以此选出相对来说更加稳定、准确率更高的分类方法。
引言
情感分析是利用机器学习等方法对文本进行分析、处理,从而对文本的观点、情绪与态度做出判断[2],是自然语言处理领域的热门研究课题。情感分类是传统情感分析中的一个核心问题,是对文本中作者表达出的情感倾向进行分类,大多数情况下研究者会将其分为两类(正面与负面),也有的研究分类更细致些,将没有情感倾向的中立划分成为新的类别[2]。在各种类型的文本中都会或多或少代入作者的情感倾向,很多文本中会包含明显的带有情感倾向的词语,例如“好”、“善良”、“快乐”等积极正面倾向的词语,“坏”、“讨厌”、“难过”等负面消极倾向的词语,对于带有这些明显倾向的情感词的文本在进行情感正负面分类时会比较直观、简单;但是新闻类、科技类等类型的文本表达比较客观,情感倾向比较隐晦,这也是目前国内外学者比较感兴趣的研究部分。文本情感分类是自然语言处理的基本步骤,也是实体抽取、舆情分析等更深层次操作的基础,在自然语言处理领域具有很大的意义。
二、国内外研究进展
情感分类的研究工作逐渐成为众多学者感兴趣的方向,其研究方法大致分为两种,分别是基于情感词典的方法以及机器学习的研究方法。
机器学习是目前情感分类研究中的主流方法。机器学习就是让计算机学习人类的行为,形成固定的规律和模式来解决问题[10]。基于机器学习进行情感分类的依据是首先将文本中的特征词提取出来之后由计算机根据算法对文本分析处理然后输出正面或负面的情感分类倾向。通过标准的机器学习方法来处理文本情感分类问题最早可以追溯至2002年,是由Pang等[11]研究提出的[2]。机器学习的情感分类方法主要是应用机器学习模型,如支持向量机、朴素贝叶斯、最大熵等,通过对训练集的特征进行学习,构造模型,从而应用于对测试集的分类判断。针对不同形式的文本,所采用的模型与方法也有所不同[12]。基于机器学习的方法更多更全面,许多学者都在机器学习方面进行深入研究,例如唐慧丰等人[13]提取文本特征词后使用三种不同的分类方法,将特征词提取的数量设为变量来进行研究实验,从中选出特征提取与分类效果更好的方法组合,另外还发现样本数据的大小与特征词的数量也会对分类效果产生影响;张俊飞[14]实现了将PMI算法与TFIDF相结合,对朴素贝叶斯算法进行改进,对结果分析发现,改进后的朴素贝叶斯相比传统算法分类效果有一定的提高。经过大量研究发现,机器学习方法比基于情感词典的方法更有优势,减少人力、物力,更有效率,也更得研究人员青睐[2],因此机器学习方法也是本次研究中的重点。
众多学者在情感分类方向上的研究也有很多应用在了实际生活中。Morinaga等人[15]开发了RSE(reputation search engine)系统,用于对目标产品进行声誉分析,在互联网上搜索相关意见,并标志出每个意见的极性和可能性,对同一类别产品的用户评论进行比较,并用图形化的方式显示用户对不同产品的偏好,以促进生产商更好地改进产品,满足用户需求,提高自身竞争力。Tong[16]提出了一种情感时间线的检测跟踪系统,该系统主要是跟踪关于电影的在线讨论,将正面/负面的意见留言数量通过情感时间线的曲线图方式展现出来。Liu等人[17]开发了产品反馈系统Opinion observer,对顾客在网络上的评论进行分析处理,提取产品的特征及客户的评价,并通过可视化的方式显示结果,帮助用户进行最终决策。除此之外,通过对新闻评论、社交平台等言论进行分析后可以实现舆情分析与信息预测,从而维持社会大众言论的稳定性。除了国外的相关研究,国内学者的研究成果也在实际生活中有所应用。袁立宇等人[18]考虑了特征项在不同类别中分布情况的差异以及对倒文档率的平滑对情感分类方法的改进,经过实验表明可以有效提高分类准确率,这一方法目前已经在中国电信"号码百事通"业务中用于餐饮商家及优惠券推荐,效果良好。
原文链接:http://www.jxszl.com/jsj/xxaq/607023.html