Java网络爬虫的设计与实现.docx

资料分类:计算机信息 上传会员:紫色烟火 更新时间:2022-06-09
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:10225
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:网络爬虫是一个能在网络中自动抓取指定模式信息的程序,在数据爆炸时代对信息进行有目的的抓取和过滤是一个值得讨论和深入学习的话题。

本文的主要目的是设计面向结构化网页的网络爬虫软件,对用户指定的爬取规则进行高效的抓取工作。“面向用户”是该软件一个重要的设计维度,在设计接口时候充分考虑该软件在用户方面的可行性和可靠性,目的是设计一个可定制开发、健壮的爬虫软件。

该网络爬虫软件使用多线程技术,让爬虫具备更强大的抓取能力,对网络爬虫软件的网络连接设置连接及读取时间,避免无限制的等待。为了适应不同需求,使网络爬虫可以根据预先设定的主题实现对特定主题的爬取。该软件使用Java语言实现网络爬虫软件,这不仅仅是考虑到了Java语言的优良特性,更是考虑到了该软件对多线程爬取技术的需求。更重要的,Java能良好的满足该软件“用户自定义”的需求,使用户能够在实现了指定接口的方法后就可以轻松完成爬取逻辑,并且实现自定义的持久化操作,在最少的编码时间完成最多的信息抓取。

 

关键词:网络爬虫;JAVA;多线程

 

目录

摘要

Abstract

1.软件需求分析-2

1.1 研究背景与意义-2

1.2 研究内容-2

2 JAVA爬虫技术基础-4

2.1使用JAVA设计网络爬虫-4

2.2 使用Spring创建、管理软件的各个组件-4

2.3 JAVA多线程-5

2.4 JAVA线程池-6

2.5 使用LinkedBlockingQueue同步队列-8

2.6 JAVA反射机制-9

2.7 使用Apache HttpClient作为下载工具-9

2.8 使用Jsoup作为HTML解析工具-10

3. 软件设计-11

3.1 总体结构设计-11

3.2 软件运行流程设计-11

3 3 功能模块设计-12

4 软件实现-13

4.1PageDownloader组件-13

4.2 URLQueue组件-13

4.3 Rules组件-14

4.4 信息模型-15

4.5 Parser组件-15

4.6 Pipeline组件-15

4.7 Crawler组件-16

5 软件测试-17

5.1 测试目标与测试方法-17

5.2 改进方案-17

结    论-18

参 考 文 献-19

致    谢-20

相关论文资料:
最新评论
上传会员 紫色烟火 对本文的描述:爬虫程序是一个自动获取网页的程序。它为搜索引擎从互联网上下载网页,是搜索引擎的重要组成部分。爬虫程序的实现策略,运行效率直接影响搜索引擎的搜索结果。不同的搜索引擎......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: