| 需要金币: |
资料包括:完整论文 | ![]() | |
| 转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:14535 | ||
| 折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:无论是哪个领域,数据都已经成为了取得未来竞争力的关键因素。而网络爬虫正满足了人们的这种需求,它作为一种高效的信息采集利器,让人们快速便捷得采集得到准确可靠的各种数据资源,在对数据进行处理分析后,将原本一条条简单的数据转化为巨大的价值。 爬虫程序若是借助于框架进行开发将更加便捷。在拥有框架之后,我们就不必担心爬虫的全部流程,而异常处理、任务调度等处理都汇集成在框架中。在将各个组件独立开来,定义成不同的模块所形成的框架之中进行开发,我们就只需对爬虫的核心逻辑部分进行设计,比如对网页界面数据的提取、下一步请求的生成等。如此一来,不仅能够提高开发的效率,而且能够使爬虫程序更加健壮,更省时。本文将对PySpider框架进行分析研究,并且在基于PySpider框架的基础上对网络爬虫进行实现。
关键词:网络爬虫 PySpider 数据分析
目录 摘要 Abstract 1.绪论-1 1.1课题研究的背景和意义-1 1.2 国内外发展现状-2 1.2.1 网络爬虫技术发展历史-2 1.2.2 网络爬虫技术的现状和局限性-2 1.3 论文篇章结构-2 2.网络爬虫的工作原理及其相关技术的研究-4 2.1 网络爬虫的技术-4 2.1.1 网络爬虫的原理-4 2.1.2 网络爬虫的工作流程及数据抓取过程分析-5 2.2 会话和Cookie-7 2.2.1会话-7 2.2.2 Cookie-7 2.2.3 会话和cookie对本课题的作用-8 2.3代理的基本原理-8 3. PySpider框架的研究-9 3.1 PySpider框架的介绍-9 3.1.1 PySpider框架介绍-9 3.1.2 PySpider与Scrapy的对比-9 3.2 PySpider的组件分析-9 3.2.1 目录结构分析-9 3.2.2 PySpider的组件-10 3.3 PySpider总体框架结构及运行流程-13 4. 基于PySpider框架的网络爬虫的实现-15 4.1 测试环境-15 4.2 豆瓣影视信息的提取-15 4.2.1 网页分析-15 4.2.2 数据抓取-17 4.3 百度图片下载-19 4.3.1 网页分析-19 4.3.2 数据抓取-19 4.4 大量文章信息的爬取与分析-20 4.4.1 网页分析及数据爬取-21 4.4.2 数据清洗-23 4.4.3 数据分析-24 4.5 关键问题-31 4.5.1 登录与访问限制-31 4.5.2 反爬虫策略-32 5.网络爬虫系统的影响与效益-34 6. 总结和展望-35 参考文献-36 致谢-37 |

