成都锦江二手房数据分析及可视化系统(附件)【字数:9073】
目录
一、 引言 1
(一)背景意义 1
(二)研究内容 1
二、 关键技术介绍 1
(一)Requests 1
(二)pyECharts 2
(三)Pandas 2
三、 数据采集与存储 2
(一)结构分析 2
(二)数据获取 3
(三)数据存储 3
四、 数据清洗 5
(一)数据浏览 5
(二)判断数据类型 5
(三)对存在不完整的数据进行处理 5
(四)单价后面存在多余的文字 5
五、 数据分析 6
六、 数据可视化 6
七、 总结和展望 19
致谢 21
参考文献 22
附录 各部分详细代码 23
引言
(一)背景意义
成都作为我国的新一线城市,科技,农业,工业,生产制造业,旅游业,餐饮业飞速发展带动了成都市的整个消费水平,同时也出现了很多的工作岗位。也就是这个原因吸引了全国范围内大批人口流向成都争取工作的机会。甚至是世界范围内的人口愿意走向成都。成都呢还是一座比较适合生活的城市,在全国幸福指数位居榜首的加持下也吸引了更多的人走向成都。那么随之而来的就是这些人的一个住房问题需要及时解决,使得二 *51今日免费论文网|www.51jrft.com +Q: ^351916072#
手房的市场出现了生机勃勃的大场面,俗话说的好衣食住行是首位,那么肯定就得解决人们的住房问题,成都市内的土地资源也是有限的,一手房就没有了发展的基石,人们不得不把注意力转到二手房上面来,二手房的需求量可以说是供不应求,也就造成了价格上的一路飙升。
作为一个普通市民买房咱们要考虑的不光是价格问题,还有就是地理位置,面积大小,户型等等很多的因数,工作的通勤时间,家里人口数量,小孩上学问题这些都是息息相关的,基于这些本人就用大学所学内容做了一个基于Requests网络爬虫数据的链家成都锦江二手房分析及可视化系统对成都市锦江区二手房作了一次彻底透彻的分析,有利于人们更加方便准确了解房源信息。
(二)研究内容
本文采用Requests+bs4 beautifulSoup获取链家网成都锦江区二手房数据,采用Pandas进行数据清洗和分析,采用PyECharts完成数据可视化。数据采集部分包括行政区, 标题, 小区, 街道, 户型, 面积, 装修, 单价, 总价;数据清洗部分包括:对缺失值,重复值的处理;数据分析部分包括:街道有哪些小区,单价排序,户型统计;装修类型分析 ;总价分析;户型分析;可视化部分包括:将分析出的结果进行可视化展示。
关键技术介绍
本文涉及数据采集、清洗、分析、可视化等大数据的技术,采用Requests模块,下面进行详细介绍。
(一)Requests
Requests是一个基于Apache2协议开源的Python HTTP库,号称是“为人类准备的HTTP库”。Python中,系统自带的urllib和urllib2都提供了功能强大的HTTP支持,但是API接口确实太难用了。requests作为更高一层的封装,确实在大部分情况下对得起它的slogan——HTTP for Humans。运用这个技术在在链家网上做了爬虫将网页上的锦江二手房的3000条数据全部爬取下来了。
(二)pyECharts
pyecharts 是一个用于生成 Echarts 图表的类库。Echarts是由百度开发的一个数据可视化开源JS 库。可视化类型多,效果也非常好,但是使用时需要通过导入js库在Java Web项目上运行,使用比较复杂。pyecharts 是一个国人开发的一个Echarts与Python结合的类库,为了与 Python 进行对接,方便在 Python 中直接使用数据生成图。pyecharts可以生成动态网页来展示数据,数据地图的制作更是pyecharts库最大的亮点,用这一项技术实现了数据的可视化将清洗好的数据做了饼图 柱状图 漏斗图 条形图 环状图 玫瑰图 雷达图 折线图等
(三)Pandas
Pandas[2]库是数据分析的三剑客之一(另外两个是Numpy库,Matplotlib库),是Python的核心的数据分析库。它为我们提供了快速、灵活、明确的数据结构,能够简单、直观、快速地处理各种类型的数据,用这个库做了数据的清洗和分析把数据转化为有用的类型,去掉数据中多余的文字,对街道 户型 房源 厅数 卧室的数量进行了分析
(四)Python
Python的设计目标之一是让代码具备高度的可阅读性。它设计时尽量使用其它语言经常使用的标点符号和英文单字,让代码看起来整洁美观。它不像其他的静态语言如C、Pascal那样需要重复书写声明语句,也不像它们的语法那样经常有特殊情况和意外。
这个系统主要用的就是python语言实现 爬虫 数据分析 数据清洗 数据可视化作图
数据采集与存储
此系统的重难点在于数据可视化 数据怎么去清洗,以下内容将分析此过程中存在的技术难点以及如何解决的方法。
(一)结构分析
目标网站:https://cd.lianjia.com。数据采集字段包括:行政区, 标题, 小区, 街道, 户型, 面积, 装修, 单价, 总价
网站初步分析
使用Resquest[3]技术对网站进行请求,程序运行结束后成功爬取网页如图31所示。
原文链接:http://www.jxszl.com/jsj/wlw/607589.html