基于网络爬虫技术的自主新闻采集网站的设计与实现.docx[原创毕业论文]

摘要

在信息大爆炸的互联网时代，怎样更好的获取有效信息是摆在大家而前的一个难题。有太多的新闻信息进入我们的视野。一定意义上说，我们更加关心如何去获取一些与我们有联系的新闻内容。

本论文主要是设计并实现一个基于网络爬虫技术的自主新闻采集网站。使用爬虫可以定向的爬取用户需要的新闻资源，再通过一定的可视化将其展现出来。

在flask框架下，爬虫部分使用python的request与selenium爬取各大新闻网站并将数据存入mysql数据库，使用SQLAlchemy ORM操作数据库，最后将数据处理后渲染在网页上。通过测试表明，该系统可稳定运行，可以用于高效实时地查阅各类新闻。

在网站的设计上，考虑到用户受众的年龄结构，力求有很强的操作性，可读性，让用户可以方便的来回切换于各类新闻之间，不同的用户有不用的新闻类别可供选择。同时界面要保持一定的简洁性，不至于让用户疲于阅读新闻。

关键词：网络爬虫，新闻采集，网站设计

第一章绪论 1

1.1 开发背景 1

1.2 研究现状 1

1.3 研究内容 3

第二章爬虫简介 4

2.1 爬虫的基本流程 4

2.2 爬虫的搜索策略 4

2.2.1 宽度优先抓取策略 4

2.2.2 深度优先抓取策略 5

2.2.3 非完全PageRank策略 5

2.2.4 大站优先策略 6

2.3 聚焦爬虫 6

第三章系统需求分析 9

3.1 系统可行性分析 9

3.1.1 经济可行性 9

3.1.2 运行可行性 9

3.1.3 操作可行性 9

3.2 用户对象分析 9

3.3 管理员用例分析 9

3.4 功能需求分析 10

第四章系统开发知识准备 12

4.1 pycharm开发工具 12

4.2 Python简介 12

4.2.1 requests 12

4.2.2 selenium 12

4.3 MYSQL简介 12

第五章系统的设计与实现 14

5.1 数据爬取与存储 14

5.2 爬虫界面 15

5.3 新闻界面 16

第六章总结 20

参考文献 21

致谢 22