基于python的分布式大数据可视化研究设计.doc

资料分类:师范学院 上传会员:徐小佳 更新时间:2024-04-22
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:6362
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:这些年,随着互联网技术的不断发展,人们对信息的需求越来越多,云计算,大数据,等等昔日在论文,研究报告中才会出现的的名词越来越多地出现在了普通人的日常生活中。

其中横空出世的Python,不但自身的操作方便,代码简洁而成为了程序员的心头爱,更为重要的是其强大的库,强大的可移植性,正促使它渐渐代替Java,成为了现在乃至未来最炙手可热的编程语言。

   可以说,在这个聚变的时代,正因为人们对于信息技术跨越性变革的强烈渴求,催生了卓越不凡的Python,由此,基于Python创立的大数据网络爬虫获取,自然而然成为了本论文的研究目标。

    网络爬虫利用智能自构建技术自动检测网址,对网站进行数据采集和权重去除。与此同时,因为其多线程技术的使用,使得爬虫程序相比较其他程序具有强大的信息获取能力。爬虫程序可以由用户设置来搜索和抓取用户需要的主题以满足用户的信息获取需求。本文的目的就是是研究目的在于,深入探讨scrapy框架下的网络爬虫的工作原理,实现python爬虫的相关功能,并就如何将爬虫数据存储到数据库中进行可视化显示。

关键词:网络爬虫; 大数据; 高效; 快速; 分布式; 多线程; 数据库

 

目录

摘要

ABSTRACT

一 绪论-2

1.1毕业设计背景与目的-2

1.2论文结构和内容-3

二 相关技术介绍-3

2.1Python语言-3

2.1.1Python语言的产生与发展-3

2.1.2Python语言的优点-3

2.1.3Python语言的缺点-4

2.2网络爬虫-4

2.2.1网络爬虫的运行理论概述-4

2.2.2Scrapy网络爬虫的框架介绍-5

三 项目需求及设计-7

3.1需要抓取的内容-7

3.2本地输出-7

四 项目分析及实现-8

4.1Scrapy库的安装-8

4.2抓取方法-12

4.2.1创建Scrapy项目-12

4.2.2 Spider的创建-13

4.2.3Item的创建-13

4.2.4解析Response-14

4.2.5连结Item-14

4.2.6运行-15

4.2.7保存-16

五 结论-17

5.1全文总结-17

5.2不足与展望-18

参考文献-18

相关论文资料:
最新评论
上传会员 徐小佳 对本文的描述:在编写爬虫的时候,考虑到常规的urillb爬虫无法应对当前大部分网站的反爬机制,所以我们出于学习的简易性和实用性,我们在Pyspider框架与Scrapy框架中选择了Scrapy框架,它的强大功能可......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: