设计舆情搜集的python爬虫程序.doc[原创毕业论文]

需要金币：1000 个金币	资料包括：完整论文
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：12217
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.doc)

上一篇：设计采集专栏新闻的python爬虫程序.docx

下一篇：没有了

摘要：全球已经进入了大数据的互联网时代，互联网中的数据是海量的，如何自动高效地获取互联网中我们感兴趣的信息并为我们所用是一个重要的问题。在移动互联网的发展潮流中，今日头条已经成为国内最大的社交媒体之一，今日头条已经成为国内网友分享信息，交流信息的主要平台。在网络各种舆论消息层出不穷，总类繁多，删选这些消息实在是耗时耗力，如何快速得浏览自己感兴趣的信息。针对舆情收集的特点，我们采用网络爬虫的方式来进行舆情的搜集，采用selenium自动化的测试框架模拟网络用户的点击搜索，用来解析网页文件的解析库有很多，我们采用了lxml库来迅速的帮助我们解析网页文件，并且获得网页的的具体内容。在对程序字符串的匹配上，我们采用了python自带的re库来对字符串进行匹配。爬虫程序爬取网页内容的速度非常快，很容易被浏览器认为是一种黑客攻击行为，因此我们采用time库对爬虫的速度进行限制使程序在一个合理的速度下运行。对于爬虫程序的每个具体模块我们也采用python系统自带的urllib库来进行模块编码，爬虫程序完成爬取的时候，我们需要对爬取的内容进行存储，因为本程序爬取内容的数据量相对较小所以直接采用了csv库直接存储在本地文件里。

关键词：大数据；python；网络爬虫

摘要

ABSTRACT

第一章概要叙述-1

1.1 课题背景-1

1.2 爬虫是什么-2

1.3 爬虫的基本流程-3

1.4 爬虫的发展历史-3

1.5 爬虫的应用-4

第二章实现爬虫的相关技术-5

2.1 Scrapy框架 -5

2.2 Python Selenium框架-6

2.3 Pyspider框架-7

2.4 Django框架-8

2.5 爬虫的类型-10

2.6 爬虫的策略-10

2.7 网页更新策略-10

2.8 网页分析算法-11

第三章爬虫程序设计-12

3.1 舆情特点分析-12

3.2 程序代码介绍-12

第四章今日头条关键字爬取-16

4.1 分析网页-16

4.2 爬取数据-16

4.3 数据整理-17

4.4 数据存储-17

4.5 实现程序的重难点-17

第五章对爬虫技术的未来展望-19

参考文献-20

致谢-22

附录-23

火车售票与客流分析系统的设计与实现	空气质量分析系统的设计与实现.docx	博客平台的设计与实现.doc
某公司物流信息管理系统设计与实现VB+	基于After Effects的环保公益广告设计与实现	当当网交易安全保障的问题分析与对策研
基于JavaWeb的校园管理系统的设计与实现	安卓android平台下的客户信息管理系统的设	基于ARM和CPLD的有感无刷直流电机系统设计
高校就业信息网的设计与实现.doc	服务商管理系统设计与实现.docx	云会计主题学习网站的设计与实现.doc