| 需要金币: |
资料包括:完整论文 | ![]() | |
| 转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:11349 | ||
| 折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:如今是大数据时代,数据价值不可估量。网络是信息的载体,因特网上的信息浩如烟海,而且毫无秩序。想要在互联网中搜集指定的数据并进行分析,就要依靠爬虫来爬取有价值的数据,并过滤无关的数据,实现数据可利用价值的最大化。 本项目是基于Python的Scrapy框架编写的网络爬虫。此框架的爬虫具备数据爬取效率高的特性,使用正则表达式提取关键信息,使用MySQL和MongoDB存储数据信息,结合会话和Cookies池,实现HTTP的一个状态记录,避免重复请求的发生,从而实现高效地信息处理。此外设计代理池对接,应对网站的反爬虫策略,防止出现封IP情况的发生。 本课题实现了对书籍名称和价格、网页信息、图片和微博博主的粉丝列表、关注列表以及发布的微博等信息的爬取,这些对象的网络特性不同,针对不同的对象设计不同的爬取策略,并对爬取结果进行了分析。
关键词:Python 网络爬虫 Scrapy 数据价值 反爬虫
目录 摘要 Abstract 1.概述-1 1.1 课题研究的背景-1 1.2 课题的内容简介-1 1.3 本课题所做的工作-2 2.网络爬虫技术介绍-3 2.1 网络爬虫论述-3 2.2 网络爬虫的发展趋势-3 2.3 爬虫技术基础-4 2.3.1 HTTP基本原理-4 2.3.2 网页基础-4 2.3.3 爬虫基本原理-5 2.4 爬虫框架概述-5 2.4.1 Python爬虫框架介绍-5 2.4.2 Scrapy框架的优势-6 3.基于Scrapy框架网络爬虫技术-7 3.1 Scrapy框架结构-7 3.2 Scrapy框架工作原理-8 3.3 Scrapy框架的使用-8 3.4 相关技术运用-9 3.4.1 正则表达式-9 3.4.2 会话和Cookies-10 3.4.3 代理—应对网站反爬虫策略-11 4.基于Scrapy框架网络爬虫的设计和实现-12 4.1 开发环境配置-12 4.2 基于书籍信息数据的爬取-12 4.3 基于关键词图片数据的爬取-16 4.4 基于网页数据的爬取-20 4.5 基于新浪微博数据的爬取-23 5.网络爬虫的影响-31 6.总结和展望-32 参考文献-34 致谢-35 |

