基于Python的网络二手房源信息的爬取.doc[原创毕业论文]

需要金币：1000 个金币	资料包括：完整论文
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：11849
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.doc)

上一篇：基于NB-IoT的智能电表远程抄表系统设计与实现.doc

下一篇：基于SSM结构的酒店业务管理系统设计与实现.doc

摘要：在网络技术迅猛发展的当下，互联网日渐成为一种载体去承托海量的数据资源，但有价值的网络信息资源便于人们访问却难以获取使用，因此如何以快速有效的方式获取到在线资源成为难题。在房地产领域，困难体现在用户无法获取多次房源信息，无法实现对房源各核心数据的对比，无法针对性地对房源进行排序参考。

本文以二手房源信息作为案例，通过使用Python语言结合网络爬虫技术对房源信息网站——Q房网在售二手房数据进行爬取，解析抽取HTML文档里关键数据，运用多层级页面爬取、多线程调度实现在线资源的自动获取。用户借助爬取到的数据可以快速把房源数据按照自己需求去进行筛选比对，以此可以得到最优的房源选择。

关键词：网络爬虫；Python语言；数据抽取；房源信息

摘要

ABSTRACT

第一章绪论-1

1.1 研究背景-1

1.2 研究现状-1

1.2.1 通用网络爬虫-1

1.2.2 增量网络爬虫-2

1.2.3 聚焦网络爬虫-2

1.3 研究内容-2

1.4 本文组织架构-2

第二章相关技术-4

2.1 Pycharm概述-4

2.2 Python爬虫常用库-4

2.2.1 请求库-4

2.2.2 解析库-4

2.2.3 存储库-5

2.2.4 爬虫框架-5

2.2.5 Web框架库-5

2.3 数据提取方法概述-5

2.3.1 XPath-6

2.3.2 Beautiful Soup-6

2.3.3 正则表达式-6

第三章系统的分析与概要设计-8

3.1 可行性分析-8

3.1.1 技术可行性-8

3.1.2 经济可行性-8

3.1.3 操作可行性-8

3.2 系统功能需求分析-8

3.2.1 网页请求模块-9

3.2.2 下载模块-9

3.2.3 数据解析模块-9

3.2.4 多层级爬取模块-9

3.2.5 数据存储模块-10

3.2.6 多线程模块-10

3.3 系统功能结构图-10

3.4 系统流程图-11

第四章系统的详细设计与代码实现-13

4.1 分析URL构造规则-13

4.2 基本的反爬虫应对措施-14

4.3 XPath实现数据解析-16

4.4 实现多层页面的爬取-18

4.5 实现爬取模块-21

4.6 实现数据存储-22

4.7 实现多线程爬虫-26

第五章总结与展望-29

5.1 总结-29

5.2 下一阶段工作展望-29

参考文献-31

致谢-32

基于Scrapy框架的高效分布式爬虫系统的设	基于J2EE的文章信息管理系统的设计与实现	大学生家教网的设计与实现.doc
高校物业管理信息系统的设计与开发ASP	基于After Effects的中秋节宣传片的设计与制	学生作业管理系统.docx
音乐网站的设计与实现.doc	基于苹果平台电子书开发的应用与思考	D市地税局网络系统方案设计.doc
基于协同过滤算法的诗词鉴赏网站的设计	基于JavaWeb的人力资源管理系统的设计与实	基于PHP的易学英语学习系统的设计与实现