基于Scrapy框架网络爬虫的研究与实现.docx[原创毕业论文]

需要金币：1000 个金币	资料包括：完整论文
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：11349
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.doc)

上一篇：基于J2EE框架的信息系统的开发与实现.docx

下一篇：基于vue.js框架的网络音乐APP.docx

摘要：如今是大数据时代，数据价值不可估量。网络是信息的载体，因特网上的信息浩如烟海，而且毫无秩序。想要在互联网中搜集指定的数据并进行分析，就要依靠爬虫来爬取有价值的数据，并过滤无关的数据，实现数据可利用价值的最大化。

本项目是基于Python的Scrapy框架编写的网络爬虫。此框架的爬虫具备数据爬取效率高的特性，使用正则表达式提取关键信息，使用MySQL和MongoDB存储数据信息，结合会话和Cookies池，实现HTTP的一个状态记录，避免重复请求的发生，从而实现高效地信息处理。此外设计代理池对接，应对网站的反爬虫策略，防止出现封IP情况的发生。

本课题实现了对书籍名称和价格、网页信息、图片和微博博主的粉丝列表、关注列表以及发布的微博等信息的爬取，这些对象的网络特性不同，针对不同的对象设计不同的爬取策略，并对爬取结果进行了分析。

关键词：Python 网络爬虫 Scrapy 数据价值反爬虫

摘要

Abstract

1.概述-1

1.1 课题研究的背景-1

1.2 课题的内容简介-1

1.3 本课题所做的工作-2

2.网络爬虫技术介绍-3

2.1 网络爬虫论述-3

2.2 网络爬虫的发展趋势-3

2.3 爬虫技术基础-4

2.3.1 HTTP基本原理-4

2.3.2 网页基础-4

2.3.3 爬虫基本原理-5

2.4 爬虫框架概述-5

2.4.1 Python爬虫框架介绍-5

2.4.2 Scrapy框架的优势-6

3.基于Scrapy框架网络爬虫技术-7

3.1 Scrapy框架结构-7

3.2 Scrapy框架工作原理-8

3.3 Scrapy框架的使用-8

3.4 相关技术运用-9

3.4.1 正则表达式-9

3.4.2 会话和Cookies-10

3.4.3 代理—应对网站反爬虫策略-11

4.基于Scrapy框架网络爬虫的设计和实现-12

4.1 开发环境配置-12

4.2 基于书籍信息数据的爬取-12

4.3 基于关键词图片数据的爬取-16

4.4 基于网页数据的爬取-20

4.5 基于新浪微博数据的爬取-23

5.网络爬虫的影响-31

6.总结和展望-32

参考文献-34

致谢-35

机器人社团网站的设计与实现.doc	基于J2EE的会员管理平台的设计与实现.d	基于调查问卷的数据分析和结果展示系统
视频播放器App的设计与实现.doc	校园二手物品交易平台的设计与实现.do	基于SSH的盛馨物业管理面向管理员系统的
基于MVC的《北京时间》改版新闻网站的开	基于Java的生活用品购物网站设计与实现	基于javaEE的雨具租赁系统的设计与实现
基于安卓系统的点餐软件开发.docx	毕业生招聘系统的设计与实现.doc	户外用品销售网站的设计与实现.doc