基于python的我爱我家二手房的数据爬虫和分析系统(附件)【字数:7751】
Key words:python; real estate big data; Data visualization目 录
摘 要 1
一、 引言 1
二、 关键技术介绍 2
(一)python语言 2
(二)Scrapy 2
(三)数据可视化技术 3
三、 数据采集与存储 3
(一)结构分析 4
(二)网站爬取 4
(三)数据爬取与存储 5
四、 数据清洗 6
(一)数据浏览和一致性处理 6
(二)数据去空处理 7
(三)保存清洗数据 8
五、 数据可视化 9
总 结 19
致 谢 20
参考文献 21
附录 各部分详细代码 22
引言
本课题为了针对我爱我家的二手房交易数据,对网站公开数据进行爬取、清洗,最后实现部分数据可视化,为人们在选择二手房时提供位置、户型、交易价格等方面的参考。
本课题主要实现我爱我家的网站数据的分析系统,完成我爱我家数据分析系统的开发,通过对网站公开数据的爬取,并使用Scrapy框架与Echarts技术相结合完成可视化操作。
国内房地产快速发展,近几年来,公民越来越关心房价问题,2021年的中央经济工作会议明确提出“房子是用来住的、不是用来炒的”,展现了住房是民生之本。面对攀升的房价,人们买房的压力越来越大。为了严格落实中央关于房住不炒的要求。自2021年起,各地纷纷出台政策,对房地产行业进行调控,试图控制住房价,让房价回归到合理区间,使更多的群众能够“安居乐业”。
通常在3月、4月、8月都是房地产行业销售的旺季。说明我国房地产市场自2021年起,持续火爆,受到了广大消费者的热切关注。而在房地产市场,二手房市场与新房市场一样,同样火爆。但二手房市场是一个开放的市场,与新房国家对房价进行公示销售的方式不同,二手房的报价通常是由二手房房主来进行报价的。而通常报价和成交的价格都有较大的差异。此外,二手房价格受到的影响因素是多方面的,有楼层、楼的年限、小区位置、环境、户型比等,是综合性 *51今日免费论文网|www.51jrft.com +Q: ^351916072*
的。因此,对二手房的选择容易造成选择困难。在这样的情况下,如何选择二手房,是二手房买家关注的一个热门话题。
当前,人们搜索二手房信息,可以通过网络进行搜索。在网络上搜索的二手房信息的热度,反映了二手房市场的火爆程度。此外,人们还可以通过报纸新闻来了解二手房的找房热度而有了大数据技术之后,人们能通过爬取二手房发布信息网站上的数据,通过来源广泛的网络数据,如分析大量数据并找出有用信息,就需要用到网络爬虫技术。
本文以Scrapy爬虫技术为基础,运用爬虫技术采集我爱我家二手房网站数据,利用Pandas 提供功能强大的类库,对采集的脏数据进行清洗。其次是对采集的数据进行预处理,清洗脏数据,去重处理、去空处理等操作。最后是分析和可视化,需要对数据进行分析,对每一种字段数据选择一种合理的图表,将其可视化,最终基于ECharts技术,可视化分析我爱我家二手房趋势。
通过本文的研究,建立一种利用python 技术爬取我爱我家二手房信息的方法。通过对抓取的我爱我家二手房信息的特征进行可视化分析,对我家我家网站上交易的二手房信息进行有效的分析,抽取出用户感兴趣的字段,通过图表的形式,展示给用户,为用户分析二手房的交易趋势,提供参考。
关键技术介绍
本文涉及数据采集、储存、分析、可视化等大数据的技术,下面进行详细介绍。
(一)python语言
本系统使用python语言进行开发,Python是一种解释型的脚本语言,用来开发Web应用,不但开发效率高,而且运行速度快。Python提供了高效的高级数据结构,还能简单有效地面向对象编程。Python语法和动态类型,以及解释型语言的本质,使它成为多数平台上写脚本和快速开发应用的编程语言, 随着版本的不断更新和语言新功能的添加,逐渐被用于独立的、大型项目的开发。
(二)Scrapy
scrapy是一个基于事件的架构,具有速度快、并发性较好、性能较高,可以使用自动调节机制自动调整爬行速度等优点。因此我们可以级联很多操作,包括清理,组织,存储数据到数据库,导出数据等。
在进行网络爬虫,由于要抓取的目标网站上的数据量很大,而且不同的网站,所采有的技术架构有所不同,虽然都是采用HTML或者是XML标准的数据,但是由于有些结构化数据是后台服务器自动生成的,由于不同的浏览器的原因,因此,抓取的数据可能是无效的数据,这就需要对数据进行清洗和处理。这个过程,相对而言较为复杂,提高了数据抓取的难度。
Scrapy更容易构建大规模抓取项目;由于从本质上来说,Scrapy是一个性能十分强大的爬虫框架,它的架构采用了经典的多线程技术,因此从爬虫效率来讲,十分适合大规模数据的爬取。
Scrapy异步处理请求的速度快;与其它的爬虫框架相比,Scrapy异步处理上有明显的优点,速度明显比其它的框架快。
Scrapy使用自动调节机制自动调整爬取速度
本文通过应用Scrpy框架,可有效地避免这一问题。Scrpy框架提供了很多Python类库,这些类库面向进程调度(提供多线程抓取服务)、数据下载、数据清洗、数据保存、可视化分析等应用场景,用户不需要单独开发,直接调用,就可以实现高效的数据抓取,大大地提高了交率,节省了开发的时间。
(三)数据可视化技术
数据可视化技术具有信息传播速度快,更容易被记住,可以多维显示数据,数据清晰明了,能够提高数据分析的效率等特点。因此数据分析完成之后,就需要通过数据可视化展示结果。数据可视化采用PyECharts可视化大屏界面。使数据能更好的呈现出来。现代的数据可视化工具,有很多好用的功能点,包括:参数过滤、图表联动、图表钻取、参数联动、动态显示报表标题、动态分组、动态sheet扩展等等,能够快速完成数据分析。由于人脑对视觉信息的处理要比书面信息容易得多。使用图表来总结复杂的数据,可以确保对关系的理解要比那些混乱的报告或电子表格更快。
原文链接:http://www.jxszl.com/jsj/wlw/607578.html