"景先生毕设|www.jxszl.com

二手房场分析及可视化系统(附件)【字数:7729】

2024-11-03 13:55编辑: www.jxszl.com景先生毕设
摘 要近年来,随着我国二手房交易量的不断攀升,二手房市场的交易方式也在不断增加,转变为网络平台与线下门店共存的新局面。了解二手房市场的发展趋势的需求也在相继增大。本项目利用Request 爬去取 pandas 分析 以及echarts等大数据技术,在网络平台上汇总二手房交易信息,设计二手房市场分析与可视化系统。该系统运用多项技术,从不同角度分析苏州二手房市场的发展趋势。它将会为市场管理者和参与者提供可靠的依据,带来一定参考的价值。
目 录
一、引言 1
(一)背景意义 1
(二)研究内容 1
二、 关键技术介绍 2
(一)Scrapy 2
(二)Pandas 2
(三)etree 2
(四)Echarts 2
(五)HTML 3
三、数据采集与存储 3
(一)结构分析 3
(二)数据获取 3
(三)数据存储 3
四、数据清洗 3
(一)数据浏览 3
(二)数据去空、去符号处理 3
(三)字符串分割处理 4
(四)标准值转换 4
(五)保存清洗数据 5
五、数据分析 5
(一)数据分类 5
(二)数据排序 7
(三)分类汇总 9
(四)相关分析 11
六、数据可视化 11
(一)可视化大屏展示 12
(二)各部分可视化展示 13
七、总结和展望 18
八、致谢 19
参考文献 20
附录 各部分详细代码 21
引言
近年来,随着我国二手房交易量的不断攀升,二手房市场的交易方式也在不断增加,转变为网络平台与线下门店共存的新局面。
随着中国经济的发展,二手房的需求不断增加。虽然二手房交易量快速增长,但是二手房市场的发展也存在很多的问题,一方面是网络平台的数据鱼龙混杂,数据并不是十分清晰;另一方面。本文将通过对二手房数据的采集、清洗、分析、可视化来提高企业服务客户的能力。
(二 *51今日免费论文网|www.51jrft.com +Q: ^351916072
)研究内容
本文采用xpath获取二手房网站数据,采用pandas进行数据清洗和分析,采用HTML完成数据可视化。数据采集部分包括:网站结构分析、数据抓取、数据的存储;数据清洗部分包括:去空、标准值转换、去掉多余符号;数据分析部分包括:数据分类、数据排序、数据汇总;可视化部分包括:价格可视化、户型可视化、地址可视化。具体如图11所示。
/
图11 主要研究内容
关键技术介绍
本文涉及数据采集、清洗、分析、可视化等大数据的技术,采用requests 、pandas、etree 、html等框架或软件,下面进行详细介绍。
(一)Scrapy
Scrapy[12]是一个为了提取结构性数据而编写的应用框架,可以用来快速采集Web网页数据。Scrapy作为网页采集工具,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。
(二)Pandas[510]
Pandas是一种基于NumPy的工具,该工具是为了解决数据分析任务而创建的。Pandas纳入了大量库和一些标准的数据模型,提供了能够高效的操作大型数据集所需的工具和大量能够快速便捷的处理数据的函数和方法。
(三)etree[34]
Etree中的xpath可以很方便的从html源码中得到自己想要的内容。
(四)Echarts[1118]
ECharts是一款基于JavaScript的数据可视化图表库,提供直观,生动,可交互,可个性化定制的数据可视化图表。
(五)HTML
HTML的全称为超文本标记语言,是一种标记语言。它包括一系列标签.通过这些标签可以将网络上的文档格式统一,使分散的Internet资源连接为一个逻辑整体。
三、数据采集与存储
在进行数据采集之前,首先通过pycharm创建文件。该项目python project,创建效果如图31所示。
/
图31 创建数据采集项目结果
(一)结构分析
数据采集的网址:https://suzhou.qfang.com。数据采集字段包括:标题,户型,面积,装修,楼层,朝向,地址,小区名,总价,单价,学校,备注等。
1.网站初步分析
在headers参数中加入Cookie、ContentType代码,再加入其他参数请求。
headers = {
UserAgent: Mozilla/5.0(Windows NT 10.0;Win64;x64) AppleWebKit/537.36(KHTML,likeGecko) Chrome/99.0.4844.51Safari/537.36,
ContentType:"application/xwwwformurlencoded; charset=UTF8"
}
2.网站结构分析
将上文得到的代码进行处理后发现,二手房中夹杂着新房的广告,网站结构分析结果如图33所示。
/
图33 网站初步分析结果
代码如下
for index, all_li in enumerate(all_lis):
if len(all_li.xpath("""@datanum""")) != 0:#在all_li模块中,如果datanum不等于0的
continue #用continue跳出循环
(二)数据获取
1.设置翻页效果
在采集爬取时,通过页面编号page,可以实现每一页数据的采集,同时利用xpath可以获取@href标签对应的每一页url地址https://suzhou.qfang.com/sale/f{page}。
(三)数据存储
CSV 文件格式是一种通用的电子表格和数据库导入导出格式。
数据清洗

原文链接:http://www.jxszl.com/jsj/wlw/607570.html