| 需要金币: |
资料包括:完整论文 | ![]() | |
| 转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:11849 | ||
| 折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:在网络技术迅猛发展的当下,互联网日渐成为一种载体去承托海量的数据资源,但有价值的网络信息资源便于人们访问却难以获取使用,因此如何以快速有效的方式获取到在线资源成为难题。在房地产领域,困难体现在用户无法获取多次房源信息,无法实现对房源各核心数据的对比,无法针对性地对房源进行排序参考。 本文以二手房源信息作为案例,通过使用Python语言结合网络爬虫技术对房源信息网站——Q房网在售二手房数据进行爬取,解析抽取HTML文档里关键数据,运用多层级页面爬取、多线程调度实现在线资源的自动获取。用户借助爬取到的数据可以快速把房源数据按照自己需求去进行筛选比对,以此可以得到最优的房源选择。
关键词:网络爬虫;Python语言;数据抽取;房源信息
目 录 摘 要 ABSTRACT 第一章 绪论-1 1.1 研究背景-1 1.2 研究现状-1 1.2.1 通用网络爬虫-1 1.2.2 增量网络爬虫-2 1.2.3 聚焦网络爬虫-2 1.3 研究内容-2 1.4 本文组织架构-2 第二章 相关技术-4 2.1 Pycharm概述-4 2.2 Python爬虫常用库-4 2.2.1 请求库-4 2.2.2 解析库-4 2.2.3 存储库-5 2.2.4 爬虫框架-5 2.2.5 Web框架库-5 2.3 数据提取方法概述-5 2.3.1 XPath-6 2.3.2 Beautiful Soup-6 2.3.3 正则表达式-6 第三章 系统的分析与概要设计-8 3.1 可行性分析-8 3.1.1 技术可行性-8 3.1.2 经济可行性-8 3.1.3 操作可行性-8 3.2 系统功能需求分析-8 3.2.1 网页请求模块-9 3.2.2 下载模块-9 3.2.3 数据解析模块-9 3.2.4 多层级爬取模块-9 3.2.5 数据存储模块-10 3.2.6 多线程模块-10 3.3 系统功能结构图-10 3.4 系统流程图-11 第四章 系统的详细设计与代码实现-13 4.1 分析URL构造规则-13 4.2 基本的反爬虫应对措施-14 4.3 XPath实现数据解析-16 4.4 实现多层页面的爬取-18 4.5 实现爬取模块-21 4.6 实现数据存储-22 4.7 实现多线程爬虫-26 第五章 总结与展望-29 5.1 总结-29 5.2 下一阶段工作展望-29 参考文献-31 致 谢-32 |

