"景先生毕设|www.jxszl.com

基于selenium技术的淘宝网站数据采集分析与可视化(附件)【字数:7071】

2024-11-03 13:56编辑: www.jxszl.com景先生毕设
摘 要科技不断的发展,人们的生活水平也逐渐提升。在中国,几乎都每天在网络购物的成交金额巨大,在今年最近的一个购物节中,据统计已达到51亿元人民币。在大家在购物网站中搜索自己想要购买的物品时,会出现很多同一物品多种品牌。本课题采用python,聚合淘宝商品信息,设计和开发了淘宝网站中商品数据分析和可视化系统。本课题的主要内容如下(1)数据爬取和持久化。理解网站结构后,采用python爬虫收集淘宝数据进行保存;(2)数据清洗和标准化。探查数据结构和分布情况,对收集的数据清除空或重复的数据行,删除无法识别的数据;(3)数据分析和知识发现。分析属性特征,对关键属性进行排序分类;(4)分析结果动态显示。使用Echarts将数据用饼图、折线图、字云等多种图表显示分析结果。本课题综合应用大数据专业的多项技术,多维度分析淘宝同一种商品不同品牌,为各大电商以及购买者提供决策依据,具有一定的市场应用价值。
目 录
一、 引言 1
(一)背景意义 1
(二)研究内容 1
二、 关键技术介绍 1
(一)selenium 1
(二)Pandas 1
(三)MySQL 2
三、数据采集与存储 2
(一)结构分析 2
(二)数据获取 3
(三)数据存储 4
四、 数据清洗 5
(一)数据浏览 5
(二)数据去重处理 5
(三)数据去空处理 6
(五)更改购买人数的格式 6
(六)保存清数据 7
五、 数据分析 8
(一)描述分析 8
(二)数据排序 9
(三)分类汇总 9
(四)相关分析 10
六、 数据可视化 11
(一) 可视化大屏界面 11
(二)可视化详细设计 12
七、 总结和展望 20
八、致谢 21
参考文献 22
附录 各部分详细代码 23
引言
数据的分析以及可视化可以将我们现在生活中的数据十分清晰的展现在我们面前,可以一幕了然的知道该 *51今日免费论文网|www.51jrft.com +Q: ¥351916072
数据的所有想知道的信息。
(一)背景意义
随着中国经济的发展,各大电商平台展示在大众面前。现在以淘宝网这个平台对于彩妆进行分析。虽然近几年美妆博主大量涌现出来,给大家种草各种彩妆化妆品,但是这些对于大众并不是说都很适用的,每个人考虑的范围都不一样。本文将对于淘宝网中对彩妆进行数据的采集、清洗、分析、可视化来给大家进行分析。
(二)研究内容
本文采用selenium获取淘宝网中“彩妆”数据,采用pandas、numpy进行数据清洗和分析,采用echarts完成数据可视化。数据采集部分包括对谷歌浏览器的驱动完成,对网页源代码的分析,以及数据的存储;数据清洗数据采集部分包括:去除无法识别内容,去除重复内容;数据分析部分包括:对数据进行相应分析,进行分类汇总;可视化部分包括:对于不同品牌进行可视化,地区可视化。具体如图11所示。
/
图11 主要研究内容
关键技术介绍
本文涉及数据采集、清洗、分析、可视化等大数据的技术,采用Pycharm、Anaconda3、echarts等框架或软件,下面进行详细介绍。
(一)selenium
Selenium 最早用于自动化测试,为其常用的框架。在网络爬虫中可以用于仿照人工点击等操作,是目前针对网络爬虫的一种方法。该库支持多种浏览器例如火狐浏览器、谷歌浏览器以及 IE 浏览器,当然也可以用在 linux 等操作系统中。而且该库对于许多开发语言比较友好,支持的语言包括 C、python、java 以及 ruby 等。Chrome 在版本更新后,在内存方面得到了极大的优化。Chrome 主要在渲染解析 JavaScript 中发挥作用。Selenium 启动浏览器并且启动驱动程序,使用 Python 库来进行调用,由此就有了一个自动化测试的爬虫架构[1]。
(二)Pandas
Pandas是一种基于NumPy的工具,可以对各种数据进行运算操作,比如归并、再成形、选择,还有数据清洗和数据加工特征,借助pandas库强大的"数据清洗"功能,在Python中可以对海量数据进行处理,进而提取出所需要的结果[2]。
(三)MySQL
在数据存储方面,MySQL 采用了关系模型,以行和列组成 2 维数据表格,方便用户读取或查询数据。首先确定字段中数据的格式与内容,即数据表的结构,之后根据表结构存储数据,可使整个数据表具有较高的可靠性与稳定性。在数据查询方面, MySQL 使用结构化查询语言 (structured query language,SQL)实现数据库系统的更新、数据管理、数据查询等操作[3]。
三、数据采集与存储
在传统数据处理方式已经不能满足业务需求的大环境下,大数据的采集、存储方案生态圈、技术特点及适用场景,并在此基础上给出了一些软件使用[4]。
在进行数据采集之前,首先完成Chrome的浏览器驱动。创建效果如图31所示。
(一)结构分析
数据采集的网址:www.taobao.com。数据采集字段包括:商品名、商品价格、购买人数、店铺名、发货地点。
1.网站初步分析
/
图31 将驱动放在chrome相应的文件下
/
图32 商品的名称、发货地址等信息
(二)数据获取
1.获取商品信息
将上文得到的代码进行处理后发现,每件商品的商品名称、商品价格、购买人数、店铺名、发货地点,使用xpath获取商品的信息,至此对采集网站的数据结构分析完成,关键代码如下。
pro_desc = item.find_element_by_xpath(.//div[@class="row row2 title"]/a).text
pro_price = item.find_element_by_xpath(.//strong).text

原文链接:http://www.jxszl.com/jsj/wlw/607585.html