基于python爬虫的海底捞火锅餐厅网络评论抓取及情感分析【字数:8542】
目录
摘要3
关键词3
Abstract3
Key words3
1 选题背景3
1.1 研究意义3
1.2 国内外研究状况3
1.3 研究的目的和内容4
2 Python网络爬虫设计4
2.1 Python语言4
2.2 网络爬虫4
2.3 爬虫工作流程5
2.3.1 网页解析5
2.3.2 网页下载 6
3 高频词统计及数据可视化7
3.1文本分词7
3.1.1 Jieba中文分词模块7
3.1.2 分词处理过程及结果7
3.2 数据可视化8
3.2.1 matplotlib饼状图8
3.2.2 worldcloud词云图9
3.3 整体数据分析10
4 文本情感分析11
4.1 机器学习技术11
4.1.1 基于朴素贝叶斯法11
4.1.2 基于最大熵法11
4.1.3 基于支持向量机法 12
4.2 百度Senta情感分类系统12
4.2.1 基于biLSTM的情感分类模型12
4.2.2 PaddlePaddle Fluid度学习框架12
4.2.3 训练数据13
4.3 具体实现13
4.3.1 百度Senta模型建立13
4.3.2 数据抽样分析15
5 结论及展望17
5.1 *51今日免费论文网|www.jxszl.com +Q: &351916072&
总结17
5.2 展望17
致谢17
参考文献17
基于Python爬虫的南京海底捞火锅餐厅网络评论抓取及情感分析
引言
1 选题背景
1.1 研究意义
随着在线网络社交的普及,越来越多的人通过社交网络来分享个人观点。大众点评、美团等本地生活服务类网站的出现使人们更多的在网络上分享自己的消费、生活体验。大众点评网站已经有十多年的历史,它所开创的第三方评论模式是当下网络社交的新热点,这里的评论数据均来自真实消费者。在过去十余年间,大众点评网站积累大量消费评论数据。通过浏览他人评论信息可让消费者预估消费体验,对消费者自身的消费行为也起到重要的指导性作用。但是评论数据众多且繁杂,消费者如何更加全面且直观地获知有效信息成为其自身消费行为指导关键所在。为此,本文设计一款基于Python语言的网络爬虫,对大众点评网站中南京地区海底捞火锅餐厅的评论信息进行抓取,获取一定量的评论信息之后,对评论信息进行文本分析,通过关键词提取,高频词统计、文本情感分析等方式为消费者展示真实的大众眼中的南京海底捞。
1.2 国内外研究状况
Python与C语言一样属于计算机程序设计语言。最初它被用来编写程序脚本,随着版本逐渐优化和语言新功能的添加,Python语言在独立的、大型项目的开发中崭露头角。
江红和余青松《Python程序设计与算法基础教程》[1]介绍了Python语言;在陈乐的《基于Python的网络爬虫》中介绍网络爬虫技术及其Python语言的实现[2];在魏程程的《基于Python的数据信息爬虫技术》[3]中补充说明了网络爬虫技术的两种抓取决策方式;在云洋《基于Scrapy的网络爬虫设计与实现》[4]中详细介绍了Python爬虫的Scrapy架构,并指出该架构较为适合定向网站信息的抓取;在朱琳琳与徐健《网络评论情感分析关键技术及应用研究》[5]中了解到了什么是情感分析以及为什么进行网络评论的情感分析,介绍了情感分析的一般过程;在Yang Liu等人的《Modeling and Predicting the Helpfulness of Online Reviews》[6]中了解到一般网络分析预测所需建立模型;在Jong Hyup等人的《The role of entropy of review text sentiments on online WOM and movie box office sales》[7]讲述了在网络评论对于电影票房销售的影响作用;在Zhiwei Liu和Sangwon Park的《What makes a useful online review? Implication for travel product websites》[8]讲述了如何选取有用的网络评论;在涂小琴的《基于Python爬虫的电影评论情感倾向性分析》[9]中给出了网络评论中文文本的数据处理方法;在刘爽等人的《文本情感分析综述》[10]中文本情感分析中机器学习所用到的3种方法。
在互联网时代,数据资源非常重要。近年来,中国政府发布了《促进大数据发展行动计划》等文件,指导数据挖掘和利用,并将“实施国家大数据战略”纳入“十三五”发展规划。
1.3 研究的目的和内容
在南京地区,海底捞作为大众喜爱的火锅品牌之一,在网络上有上万条评论,这不仅是顾客在品尝火锅之后的一种反馈方式,同时也对商家以及浏览者有着十分重要的参考性,因而有效挖掘处理这些评论正是本文所研究的目的。
本文中网络爬虫采用Python语言中的BeautifulSoup网页解析模块,文本分析主要使用jieba中文语言分析,通过matplotlib、wordcloud对获取数据进行可视化展示。利用百度Senta情感分析系统,计算并分析文本信息的情感倾向。
原文链接:http://www.jxszl.com/jsj/jsjkxyjs/562881.html