"景先生毕设|www.jxszl.com

安居客数据爬取与可视化分析(附件)【字数:7341】

2024-11-03 13:56编辑: www.jxszl.com景先生毕设
摘 要 让人们可以在互联网上获得越来越多的信息,然而对于当下租客来说,从这数据海洋中获取到关键信息却越来越难,网络数据来源广泛,并且数据量庞大,为了能够将网页上的数据下载到本地,且节约时间,网络爬虫技术便应运而生。本课题选择安居客二手房为数据来源,并利用python爬虫对数据进行爬取,并将爬取得到的数据保存到对应的excel文档中,在excel中对数据进行整理、筛选等数据清洗处理。爬取的字段包括发布的二手房城市、楼层信息、建设时间、地址、地点名字、区域、朝向、面积等等,一共八个字段。后会通过数据实现网页布局设置,通过echarts对数据进行各式各样的可视化图形实现,可便捷且直观的看到二手房相关的信息。
目录
一、 引言 1
(一)背景意义: 1
(二)课题介绍: 1
二、 关键技术介绍 2
(一)python 2
(二)Pycharm 2
(三)HTML 2
三、安居客网页分析 3
四、PyCharm爬虫代码设计 4
(一)反爬机制 5
(二)数据获取 5
五、数据清洗 9
六、数据可视化分析 11
(一)数据写入 11
(二)数据可视化大屏 12
(三)可视化详细分析 13
七、总结 20
八、致谢 21
参考文献 22
附录 各部分详细代码 23
引言
二手房市场在当下是一个不可忽视的领域,现在提供二手房信息的网站有很多,安居客是其中之一。除了为人们提供装修、买房、租房、室友等,还有一个很重要的项目就是二手房。通过大数据手段分析安居客二手房信息,对于客户来说,二手房交易趋势具有一定的参考价值。
(一)背景意义:
随着大数据的到来,互联网的飞速发展,各个行业也呈现出欣欣向荣的发展态势,从传统的房源信息发布向互联网信息发布方向转型,呈现出日新月异的发展面貌。互联网已经成为人们浏览房产信息,查阅交易状态的最大载体,为了能够在海量的房产信息中最大可能地检索到自己所需要的房产和房型信息。利用搜索浏览器或者app查找市场上出售的 *51今日免费论文网|www.51jrft.com +Q: ¥351916072
房源已经成为人们的必然选择。
(二)课题介绍:
本课题是对安居客二手房进行数据爬取并写入excel中,将2019年至2020年的惠州、郑州、南昌、太原、石家庄等城市的楼层信息、建设时间、地址、地点名字、区域、朝向、面积等。利用Pandas 提供功能强大的类库,对爬取的乱码、空数据等数据进行清洗。分析属性特征;基于ECharts技术,数据可视化分析安居客二手房近几年惠州、郑州、南昌、太原、石家庄的房价、销售、房屋数量趋势。
功能结构图如图11 所示。
图11 主要研究内容
关键技术介绍
本课题涉及数据爬取、数据清洗、数据分析、数据可视化等大数据的技术,采用echarts等框架或软件,下面进行详细介绍。
(一)python
Python提供了高级数据结构,简单有效地面向对象编程。Python语法和动态类型,以及解释性语言的本质,使其成为重多平台上写脚本和快速开发应用的编程语言,随着版本的不断更新和语言功能的添加,逐渐被用于独立的、大型项目的开发。Python是一种简单主义思想的语言。阅读一个好的Python程序就感觉像是在读好的诗集一样。能使你能够专注于解决问题。Python解释器易于扩展,可使用C语言或C++扩展新的功能和数据类型。
(二)Pycharm
PyCharm是一种Python IDE(集成开发环境),可以帮助用户使用Python语言开发提高效率的工具,例如进行调试、语法高亮、项目管理、代码跳转、单元测试、版本控制。该IDE提供高功能,用于支持Django、Tornada框架下的专业Web开发。
PyCharm提供了一些很好的功能用于Django开发,同时支持Google App Engine,更酷的是,PyCharm支持lronPython。
(三)HTML
HTML的全称是超文本标记语言。包括一系列标签.通过这些标签可以将网络上的文档格式统一,让分散的Internet资源连接为一个整体。HTML文本是由HTML命令组成的描述性文本,HTML命令可以说明文字,图形、动画、表格、链接等等。
用HTML编写的超文本文档称为HTML文档,它能独立于各种操作系统平台,如Windows等。用HTML将其需要表达的信息写成HTML文件,通过指定的浏览器来识别文件,并将HTML文件“翻译”成可以识别的信息,即现在所见到的网页。
超文本标记语言定义了很多种数据类型的元素内容,如脚本数据、样式表的数据和各种各样类型的属性值,其中包括名称、URI、数字、长度单位、语言、颜色、就日期和时间等等。
三、安居客网页分析
打开浏览器,搜索安居客,进入安居客网页,再点击二手房,到爬取页面。
/
图31安居客网页部分源代码
从图31中可以看到二手房中的字段,点击鼠标右键或打开管理员信息,进去后点开网络这个选项,会出现空白界面,这是需要刷新界面,按ctrl+R,页面就就出现很多文件数据,找到界面中的第一个文件,叫?from=navigstion的源文件,安居客二手房数据就在里面,如图32界面:
/
图32源文件信息页面
打开网页,找到如图32 源文件信息页面,在第一个文件中,下面有个Request URL(请求地址),这个就是数据包真正的位置;找到cookie、UserAgent。
/
/
图 32 源文件信息页面
四、PyCharm爬虫代码设计
数据采集的网址:https://sjz.anjuke.com/sale/?from=navigation 安居客
数据采集字段包括:城市、楼层信息、建设时间、地址、地点名字、区域、朝向、面积等。

原文链接:http://www.jxszl.com/jsj/wlw/607587.html