基于Python的网络二手房源信息的爬取.doc

资料分类:计算机信息 上传会员:暖暖大将军 更新时间:2024-08-22
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:11849
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:在网络技术迅猛发展的当下,互联网日渐成为一种载体去承托海量的数据资源,但有价值的网络信息资源便于人们访问却难以获取使用,因此如何以快速有效的方式获取到在线资源成为难题。在房地产领域,困难体现在用户无法获取多次房源信息,无法实现对房源各核心数据的对比,无法针对性地对房源进行排序参考。

本文以二手房源信息作为案例,通过使用Python语言结合网络爬虫技术对房源信息网站——Q房网在售二手房数据进行爬取,解析抽取HTML文档里关键数据,运用多层级页面爬取、多线程调度实现在线资源的自动获取。用户借助爬取到的数据可以快速把房源数据按照自己需求去进行筛选比对,以此可以得到最优的房源选择。

 

关键词:网络爬虫;Python语言;数据抽取;房源信息

 

目  录

摘  要

ABSTRACT

第一章  绪论-1

1.1 研究背景-1

1.2 研究现状-1

1.2.1 通用网络爬虫-1

1.2.2 增量网络爬虫-2

1.2.3 聚焦网络爬虫-2

1.3 研究内容-2

1.4 本文组织架构-2

第二章  相关技术-4

2.1 Pycharm概述-4

2.2 Python爬虫常用库-4

2.2.1 请求库-4

2.2.2 解析库-4

2.2.3 存储库-5

2.2.4 爬虫框架-5

2.2.5 Web框架库-5

2.3 数据提取方法概述-5

2.3.1 XPath-6

2.3.2 Beautiful Soup-6

2.3.3 正则表达式-6

第三章  系统的分析与概要设计-8

3.1 可行性分析-8

3.1.1 技术可行性-8

3.1.2 经济可行性-8

3.1.3 操作可行性-8

3.2 系统功能需求分析-8

3.2.1 网页请求模块-9

3.2.2 下载模块-9

3.2.3 数据解析模块-9

3.2.4 多层级爬取模块-9

3.2.5 数据存储模块-10

3.2.6 多线程模块-10

3.3 系统功能结构图-10

3.4 系统流程图-11

第四章  系统的详细设计与代码实现-13

4.1 分析URL构造规则-13

4.2 基本的反爬虫应对措施-14

4.3 XPath实现数据解析-16

4.4 实现多层页面的爬取-18

4.5 实现爬取模块-21

4.6 实现数据存储-22

4.7 实现多线程爬虫-26

第五章  总结与展望-29

5.1 总结-29

5.2 下一阶段工作展望-29

参考文献-31

致  谢-32

相关论文资料:
最新评论
上传会员 暖暖大将军 对本文的描述:通用网络爬虫[2]也能被称之为全站爬虫,通用爬虫程序首先去得到一组设置好的链接,然后访问获取到网站上相关页面的衔接,再按照特定的链接组成规律,获取到每个页面的具体链接......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: