设计舆情搜集的python爬虫程序.doc

资料分类:计算机信息 上传会员:暖暖大将军 更新时间:2024-08-15
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:12217
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)
下一篇:没有了

摘    要:全球已经进入了大数据的互联网时代,互联网中的数据是海量的,如何自动高效地获取互联网中我们感兴趣的信息并为我们所用是一个重要的问题。在移动互联网的发展潮流中,今日头条已经成为国内最大的社交媒体之一,今日头条已经成为国内网友分享信息,交流信息的主要平台。在网络各种舆论消息层出不穷,总类繁多,删选这些消息实在是耗时耗力,如何快速得浏览自己感兴趣的信息。针对舆情收集的特点,我们采用网络爬虫的方式来进行舆情的搜集,采用selenium自动化的测试框架模拟网络用户的点击搜索,用来解析网页文件的解析库有很多,我们采用了lxml库来迅速的帮助我们解析网页文件,并且获得网页的的具体内容。在对程序字符串的匹配上,我们采用了python自带的re库来对字符串进行匹配。爬虫程序爬取网页内容的速度非常快,很容易被浏览器认为是一种黑客攻击行为,因此我们采用time库对爬虫的速度进行限制使程序在一个合理的速度下运行。对于爬虫程序的每个具体模块我们也采用python系统自带的urllib库来进行模块编码,爬虫程序完成爬取的时候,我们需要对爬取的内容进行存储,因为本程序爬取内容的数据量相对较小所以直接采用了csv库直接存储在本地文件里。

 

关键词:大数据;python;网络爬虫

 

目   录

摘   要

ABSTRACT

第一章  概要叙述-1

1.1 课题背景-1

1.2 爬虫是什么-2

1.3 爬虫的基本流程-3

1.4 爬虫的发展历史-3

1.5 爬虫的应用-4

第二章  实现爬虫的相关技术-5

2.1 Scrapy框架 -5

2.2 Python Selenium框架-6

2.3 Pyspider框架-7

2.4 Django框架-8

2.5 爬虫的类型-10

2.6 爬虫的策略-10

2.7 网页更新策略-10

2.8 网页分析算法-11

第三章  爬虫程序设计-12

   3.1 舆情特点分析-12

   3.2 程序代码介绍-12

第四章  今日头条关键字爬取-16

4.1 分析网页-16

4.2 爬取数据-16

4.3 数据整理-17

4.4 数据存储-17

4.5 实现程序的重难点-17

第五章  对爬虫技术的未来展望-19

参考文献-20

致  谢-22

附  录-23

相关论文资料:
最新评论
上传会员 暖暖大将军 对本文的描述:首先我们通过http的网站库向目标网站发出请求,然后等待互联网服务器的响应。这个过程就相当于我们打开浏览器,在浏览器上输出自己要进入的网站的网址,然后点击确认。第二步等......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: