基于PySpider框架的网络爬虫的研究与实现.docx[原创毕业论文]

需要金币：1000 个金币	资料包括：完整论文
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：14535
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.doc)

上一篇：基于PB的ERP系统的尾数结案模块的开发.docx

下一篇：基于Spring框架的网络企业信息系统的设计与实现.docx

摘要：无论是哪个领域，数据都已经成为了取得未来竞争力的关键因素。而网络爬虫正满足了人们的这种需求，它作为一种高效的信息采集利器，让人们快速便捷得采集得到准确可靠的各种数据资源，在对数据进行处理分析后，将原本一条条简单的数据转化为巨大的价值。

爬虫程序若是借助于框架进行开发将更加便捷。在拥有框架之后，我们就不必担心爬虫的全部流程，而异常处理、任务调度等处理都汇集成在框架中。在将各个组件独立开来，定义成不同的模块所形成的框架之中进行开发，我们就只需对爬虫的核心逻辑部分进行设计，比如对网页界面数据的提取、下一步请求的生成等。如此一来，不仅能够提高开发的效率，而且能够使爬虫程序更加健壮，更省时。本文将对PySpider框架进行分析研究，并且在基于PySpider框架的基础上对网络爬虫进行实现。

关键词：网络爬虫 PySpider 数据分析

摘要

Abstract

1.绪论-1

1.1课题研究的背景和意义-1

1.2 国内外发展现状-2

1.2.1 网络爬虫技术发展历史-2

1.2.2 网络爬虫技术的现状和局限性-2

1.3 论文篇章结构-2

2．网络爬虫的工作原理及其相关技术的研究-4

2.1 网络爬虫的技术-4

2.1.1 网络爬虫的原理-4

2.1.2 网络爬虫的工作流程及数据抓取过程分析-5

2.2 会话和Cookie-7

2.2.1会话-7

2.2.2 Cookie-7

2.2.3 会话和cookie对本课题的作用-8

2.3代理的基本原理-8

3. PySpider框架的研究-9

3.1 PySpider框架的介绍-9

3.1.1 PySpider框架介绍-9

3.1.2 PySpider与Scrapy的对比-9

3.2 PySpider的组件分析-9

3.2.1 目录结构分析-9

3.2.2 PySpider的组件-10

3.3 PySpider总体框架结构及运行流程-13

4. 基于PySpider框架的网络爬虫的实现-15

4.1 测试环境-15

4.2 豆瓣影视信息的提取-15

4.2.1 网页分析-15

4.2.2 数据抓取-17

4.3 百度图片下载-19

4.3.1 网页分析-19

4.3.2 数据抓取-19

4.4 大量文章信息的爬取与分析-20

4.4.1 网页分析及数据爬取-21

4.4.2 数据清洗-23

4.4.3 数据分析-24

4.5 关键问题-31

4.5.1 登录与访问限制-31

4.5.2 反爬虫策略-32

5．网络爬虫系统的影响与效益-34

6. 总结和展望-35

参考文献-36

致谢-37

基于SSH的盛馨物业管理面向管理员系统的	基于MVC的《北京时间》改版新闻网站的开	基于J2EE的会员管理平台的设计与实现.d
基于Java的生活用品购物网站设计与实现	校园二手物品交易平台的设计与实现.do	基于javaEE的雨具租赁系统的设计与实现
机器人社团网站的设计与实现.doc	基于调查问卷的数据分析和结果展示系统	视频播放器App的设计与实现.doc
基于安卓系统的点餐软件开发.docx	毕业生招聘系统的设计与实现.doc	户外用品销售网站的设计与实现.doc