| 需要金币: |
资料包括:完整论文 | ![]() | |
| 转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:13011 | ||
| 折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:网络爬虫是一种在互联网上按照确定规则,自动爬取信息的程序或者脚本。文章讨论了在实现爬虫过程中遇到的问题和解决方式,包括:如何绕过验证码,如何获取所需要的信息,信息如何利用MongoDB进行本地化保存等,并给出了一个基于Python的网络爬虫程序的设计与实现。提出的爬虫程序主要面向职位信息进行检索,相比于大型搜索引擎,缩小了爬取的网络数据资源的范围,使得语义统一(输入的关键词语义为职位),因此具有针对性强的特点。
关键词:网络爬虫;Python;MongoDB;招聘网站
目 录
摘 要
Abstract
1-绪论-1
1.1-选题背景-1
1.2-选题目的-1
1.3-研究现状-2
1.4-网络爬虫原理-3
2-求职平台信息需求分析-4
2.1-功能需求-4
2.2-可行性分析-5
2.2.1-技术可行性-5
2.2.2-经济可行性-5
2.2.3-市场可行性-5
3-系统开发技术的分析与选择-7
3.1-语言-7
3.2-数据库-7
3.3-第三方库-8
3.3.1-Selenium库-8
3.3.2-lxml库-8
4-爬虫系统开发总体设计-10
4.1-系统流程设计-10
4.2-数据库设计-11
4.3-爬虫系统详细设计-11
4.3.1-模拟登录-11
4.3.2-定位元素-12
4.3.3-执行动作-12
4.3.4-抓取和提取信息-13
4.3.5-数据存储-14
4.3.6-生成文件-15
5-爬虫系统测试-18
5.1-运行环境-18
5.2-运行结果和测试结论-18
5.2.1-测试安排-18
5.2.2-运行结果-20
5.2.3-测试结论-31
6-结论-32
参 考 文 献-33
致谢-34 |

