"景先生毕设|www.jxszl.com

巴乐兔租房数据分析系统的开发(附件)【字数:9315】

2024-11-03 13:56编辑: www.jxszl.com景先生毕设
摘 要上海作为一线城市,人才的流动非常大,因此租房等问题也接踵而至。通过对租房网站数据的爬取分析,租客可以直观的根据分析系统获得房源信息。主要采用Requests、Scrapy、Pandas、ECharts等大数据技术,设计开发了巴乐兔上海租房数据分析系统。本课题的主要内容如下(1)数据爬取。在遵守网站爬取规则的前提下爬取房源数据;(2)数据清洗。对爬取的数据,进行去空,去重等清洗处理;(3)数据分析。根据区域、户型、类型、特色、租金等数据信息进行分析;(4)数据可视化。将分析后的数据采用柱状图、折线图等多种图表呈现出来。本课题综合应用大数据专业的多项技术,多维度分析上海房屋租赁数据信息,为租户提供房屋租赁依据。
目 录
一、引言 1
(一)背景意义 1
(二)研究内容 1
二、关键技术介绍 2
(一)Scrapy 2
(二)Pandas 2
(三)ECharts 2
三、数据采集与存储 3
(一)结构分析 3
(二)数据获取 4
(三)数据存储 7
四、数据清洗 7
(一)数据浏览 7
(二)清除“脏数据” 7
(三)保存清数据 10
五、数据分析 10
(一)房屋结构(户型)分析 10
(二)上海房型与平均房价分析 11
(三)租赁房源各价格段供应量比 12
(四)整租平均房价 13
(五)上海各区房源分布 14
六、数据可视化 14
(一)网页布局 14
(二)可视化详细介绍 15
(三)个性化设计 18
(四)可视化大屏界面展示 20
七、总结和展望 22
八、致谢 23
参考文献 24
附录 各部分详细代码 25
引言
随着移动互联网技术的迅速发展,使人们的工作和生活方式发生了巨大的变化,越来越多的人开始通过互联网获取需求的信息,不仅停留在日常通信,娱乐等信息的获取形式上,更多的是通过互联网了解各类行 *51今日免费论文网|www.51jrft.com +Q: ^351916072
业信息等等。互联网拉近了人与人之间的距离,为人们的生活和工作带来了便捷。同时更重要的是,使得手机成为消费者获取信息的主要途径,其方便携带、实用性大大满足了用户可以随时随地获取大量信息,而且对于一线城市上海而言,90后、00后等年轻人成为注入上海的新力量,因此寻找租房信息的需求量会越来越大,租房的最大市场也不断扩大。为此,租房数据分析系统的开发,可以让用户通过互联网了解最新的租赁信息。
同时,据相关数据显示,一线城市房屋租赁市场十分火热。特别是北上广深等一线城市的房屋租赁各项数据都高居全国榜首。并且在北上广深等一线城市租客通过电脑和手机寻找房源信息的人数也位列前茅,由此可见租房市场十分火爆。
随着大数据时代的发展,越来越多的人对数据分析产生变化,越来越相信大数据分析的力量,随之在处理很多问题时也更加倾向于数据分析的结果。其中在房屋租赁问题上就可以看出来。人们租赁房屋的选择方式就在不断变化,相比传统的依靠房屋中介线下找房源,并现场看房的方式已经在不断变化中。而通过大数据分析技术后,租户可以根据自己的需求,依据数据分析的结果,根据直观的可视化界面,了解房源信息,可以在线上实现对房屋的了解,大大节省了自己的时间。
(一)背景意义
随着我国经济的不断发展,上海作为一线城市,一方面大量的年轻人才流动使得租房需求日益增长;另一方面一线城市的房价一直居高不下,超高的房价使得经济收入低的打工族难以承受,越来越多的打工族为缓解房贷的压力,不成为“房奴”,选择租房居住。本文将通过对上海房源数据的采集、清洗、分析、可视化来提高服务租客的能力。
(二)研究内容
本文采用Scrapy和Requests等基于Python[12]网络爬虫技术获取巴乐兔上海租房网站数据,采用Pandas技术进行数据清洗和分析,采用Echarts技术完成数据可视化。数据采集部分包括:网页分析、数据获取、数据存储等;数据清洗部分包括:去空处理、去重处理、一致处理等;数据分析部分包括:分类汇总、相关分析等;可视化部分包括:房屋类型可视化、房价对比可视化、各地区房价可视化等。具体如图11所示。
/
图11 主要研究内容
关键技术介绍
本文涉及数据采集、清洗、分析、可视化等大数据的技术,采用Scrapy等框架或软件,下面进行详细介绍。
(一)Scrapy
Scrapy[35]是一个python语言编写的开源分布式爬虫框架,它能够快速高效地获取大规模网页并提取相关信息。它使用组件化设计架构,组件之间采用异步方式进行信息交互。Scrapy框架使用简单方便,用户只需要编写少量代码即可轻松实现网络爬虫功能。整个框架最大优势在于用户可以根据自己的需求对框架进行二次开发,可扩展性好。
(二)Pandas
Pandas[67]是一种基于NumPy的工具,该工具是为了解决数据分析任务而创建的。Pandas纳入了大量的库和一些标准的数据模型,体统了高效地操作大型数据集所需的工具。Pandas拥有十分丰富的数据导入函数,可以从多种数据源中快速导入数据,例如本文使用的read_csv()函数。同时Pandas拥有强大的数据清洗功能,可以对导入后的数据进行去空、去重,以及异常数据的清洗。
(三)ECharts
ECharts[8]是一个使用 JavaScript 实现的开源可视化库,可以流畅地运行在PC和移动设备上,兼容当前绝大部分浏览器(IE8/9/10/11,Chrome,Firefox,Safari等), 底层依赖轻量级的矢量图形库ZRender,提供直观、交互丰富、可高度个性化定制的数据可视化图表。ECharts提供了常规的折线图、柱状图、散点图、饼图、K 线图,以及用于统计的盒形图,用于地理数据可视化的地图、热力图、线图,用于关系数据可视化的关系图、旭日图,多维数据可视化的平行坐标,还有用于BI的漏斗图,仪表盘,并且支持图与图之间的混搭。能直观地将数据可视化出来。

原文链接:http://www.jxszl.com/jsj/wlw/607588.html