| 需要金币: |
资料包括:完整论文 | ![]() | |
| 转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:11581 | ||
| 折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘 要:在互联网的高速发展下,网民数量不断增多,通过网络来寻找资料成为不少人获得信息的第一选择。这样的发展结果下,越来越多的信息通过网络曝光,人们开始注意新闻稿的发布价值和发布意义,专栏新闻的特定性决定了它具有的重要意义。 本课题的主要设计目的是设计一个Python爬虫程序,能够在网页上搜索符合条件的新闻内容,同时将专栏新闻进行下载存贮,能够方便查询检索进行分析。 通过学习爬虫原理实现爬虫功能。本次课题采用广度优先策略,在输入具体关键词后,能够爬取指定网站的具体新闻内容。在对特定新闻网站的Uniform Resource Locator(URL)进行分析之后,让爬虫具备强大的爬取能力。在爬取一定数量的新闻后,将爬取的新闻整理存储在Excel表格当中。本次课题实现了根据关键词搜索爬取今日头条网站新闻内容,并将其保存在表格中的功能。
关键字:python程序;网络爬虫;新闻采集
目 录 摘 要 ABSTRACT 第一章 课题概述-1 1.1 课题背景-1 1.2爬虫技术的具体用途-1 1.3网络爬虫的分类-2 1.4 网络爬虫的发展趋势-2 第二章 相关技术介绍-3 2.1 Python语言介绍-3 2.1.1 Python语言产生-3 2.1.2 Python语言的优点-3 2.1.3 Python语言的缺陷-4 2.1.4 Python的语言类型-4 2.2 Python语言应用领域介绍-4 2.3 URL及html协议介绍-4 第三章 Python爬虫框架介绍-6 3.1 爬虫框架概念-6 3.2 几种常用的爬虫框架-6 3.2.1 Scrapy框架介绍-6 3.2.2 Requests库介绍-6 3.2.3 Pandas库介绍-7 3.2.4 Selenium库介绍-8 3.2.5 OS库介绍-8 3.2.6 JSON库介绍-8 3.3 常见安装Python库的方法-9 第四章 课题要求及总体设计-10 第五章 Python爬虫程序详细设计-13 5.1 设计环境和目标分析-13 5.1.1 设计环境-13 5.1.2 目标分析-13 5.2 爬取模块设计-13 5.2.1 URL管理器设计-13 5.2.2 网页下载器设计-14 5.2.3 网页解析器设计-14 5.2.4 爬取内容模块设计-15 5.3 存储模块设计-15 5.4 程序相关测试-16 5.4.1 抓取结果测设-16 5.4.2 显示结果测试-17 5.4.3 网络连接测试-17 5.5 程序运行结果演示-17 第六章 设计总结-19 参考文献-20 致 谢-21 附 录-22 |

