Java网络爬虫的设计与实现.docx[原创毕业论文]

需要金币：1000 个金币	资料包括：完整论文
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：10225
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.doc)

上一篇：招聘网站信息分析系统开发.doc

下一篇：基于Android的GPS移动定位和管理.doc

摘要：网络爬虫是一个能在网络中自动抓取指定模式信息的程序，在数据爆炸时代对信息进行有目的的抓取和过滤是一个值得讨论和深入学习的话题。

本文的主要目的是设计面向结构化网页的网络爬虫软件，对用户指定的爬取规则进行高效的抓取工作。“面向用户”是该软件一个重要的设计维度，在设计接口时候充分考虑该软件在用户方面的可行性和可靠性，目的是设计一个可定制开发、健壮的爬虫软件。

该网络爬虫软件使用多线程技术，让爬虫具备更强大的抓取能力，对网络爬虫软件的网络连接设置连接及读取时间，避免无限制的等待。为了适应不同需求，使网络爬虫可以根据预先设定的主题实现对特定主题的爬取。该软件使用Java语言实现网络爬虫软件，这不仅仅是考虑到了Java语言的优良特性，更是考虑到了该软件对多线程爬取技术的需求。更重要的，Java能良好的满足该软件“用户自定义”的需求，使用户能够在实现了指定接口的方法后就可以轻松完成爬取逻辑，并且实现自定义的持久化操作，在最少的编码时间完成最多的信息抓取。

关键词：网络爬虫；JAVA；多线程

摘要

Abstract

1.软件需求分析-2

1.1 研究背景与意义-2

1.2 研究内容-2

2 JAVA爬虫技术基础-4

2.1使用JAVA设计网络爬虫-4

2.2 使用Spring创建、管理软件的各个组件-4

2.3 JAVA多线程-5

2.4 JAVA线程池-6

2.5 使用LinkedBlockingQueue同步队列-8

2.6 JAVA反射机制-9

2.7 使用Apache HttpClient作为下载工具-9

2.8 使用Jsoup作为HTML解析工具-10

3. 软件设计-11

3.1 总体结构设计-11

3.2 软件运行流程设计-11

3 3 功能模块设计-12

4 软件实现-13

4.1PageDownloader组件-13

4.2 URLQueue组件-13

4.3 Rules组件-14

4.4 信息模型-15

4.5 Parser组件-15

4.6 Pipeline组件-15

4.7 Crawler组件-16

5 软件测试-17

5.1 测试目标与测试方法-17

5.2 改进方案-17

结论-18

参考文献-19

致谢-20

基于JavaEE技术的SARS-Cov-2查询系统的设计与	基于JAVA平台的快递员发件软件设计.doc	救灾物质管理系统的设计与实现.doc
基于Android的校园二手商品交易系统的设计	基于Android的商品定制系统的设计与实现	Pizza网上订餐系统的设计与实现.doc
多叉路口信号灯设置问题的建模与求解策	Android应用动态加载技术的研究与应用.d	基于Android的网上订餐系统.docx
基于JavaWeb的家政服务管理系统的设计与实	员工管理系统的开发与设计.doc	基于Android系统的旅图约伴APP的设计与实现