| 需要金币: |
资料包括:完整论文 | ![]() | |
| 转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:12217 | ||
| 折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘 要:全球已经进入了大数据的互联网时代,互联网中的数据是海量的,如何自动高效地获取互联网中我们感兴趣的信息并为我们所用是一个重要的问题。在移动互联网的发展潮流中,今日头条已经成为国内最大的社交媒体之一,今日头条已经成为国内网友分享信息,交流信息的主要平台。在网络各种舆论消息层出不穷,总类繁多,删选这些消息实在是耗时耗力,如何快速得浏览自己感兴趣的信息。针对舆情收集的特点,我们采用网络爬虫的方式来进行舆情的搜集,采用selenium自动化的测试框架模拟网络用户的点击搜索,用来解析网页文件的解析库有很多,我们采用了lxml库来迅速的帮助我们解析网页文件,并且获得网页的的具体内容。在对程序字符串的匹配上,我们采用了python自带的re库来对字符串进行匹配。爬虫程序爬取网页内容的速度非常快,很容易被浏览器认为是一种黑客攻击行为,因此我们采用time库对爬虫的速度进行限制使程序在一个合理的速度下运行。对于爬虫程序的每个具体模块我们也采用python系统自带的urllib库来进行模块编码,爬虫程序完成爬取的时候,我们需要对爬取的内容进行存储,因为本程序爬取内容的数据量相对较小所以直接采用了csv库直接存储在本地文件里。
关键词:大数据;python;网络爬虫
目 录 摘 要 ABSTRACT 第一章 概要叙述-1 1.1 课题背景-1 1.2 爬虫是什么-2 1.3 爬虫的基本流程-3 1.4 爬虫的发展历史-3 1.5 爬虫的应用-4 第二章 实现爬虫的相关技术-5 2.1 Scrapy框架 -5 2.2 Python Selenium框架-6 2.3 Pyspider框架-7 2.4 Django框架-8 2.5 爬虫的类型-10 2.6 爬虫的策略-10 2.7 网页更新策略-10 2.8 网页分析算法-11 第三章 爬虫程序设计-12 3.1 舆情特点分析-12 3.2 程序代码介绍-12 第四章 今日头条关键字爬取-16 4.1 分析网页-16 4.2 爬取数据-16 4.3 数据整理-17 4.4 数据存储-17 4.5 实现程序的重难点-17 第五章 对爬虫技术的未来展望-19 参考文献-20 致 谢-22 附 录-23 |

