设计采集网购商品信息的Python爬虫程序.docx

资料分类:工业大学 上传会员:暖暖大将军 更新时间:2024-08-01
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:9564
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:当前,随着人类社会前进的需要,以及各方面技术的进步。互联网技术即将迎来了又一次的井喷式发展。在对计算机数据的处理中,检索无疑是不可缺少的重要一环。如何在网络环境下的海量数据中,一次就能寻找到人们所需要的数据,这正是“网络爬虫技术”所要解决的问题。它可以为使用者,定向抓取自己所需要的数据。根据此特点,当前大数据分析、数据挖掘等人们经常听到的新技术名词,无疑是爬虫的新一场演绎。随着国家“互联网+”战略的推进,物联网技术的落地应用,无疑为爬虫技术在更多领域的广度,以及相关探索的深度里开辟出新的途径。

该设计程序不仅对网络爬虫技术的诞生、发展进行了详细的回顾,亦针对爬虫技术当下的发展进行了调研分析。展望技术发展的未来,相信“网络爬虫”也会为人们带来更多的便利。

 

关键词:爬虫;Python;数据检索

 

目 录

摘 要

ABSTRACT

第一章 引言-1

1.1 课题背景-1

1.1.1 什么是Python-1

1.1.2 Python对比其他语言的优势-1

1.1.3 什么是网络爬虫-1

1.2 研究目的-1

1.2.1 国内现有状况分析-2

第二章 开发环境以及系统框架概述-3

2.1 系统开发环境以及使用工具概述-3

2.1.1 Python-3

2.1.2 MySql与Navicat-3

2.1.3 avicat Premium介绍-3

2.1.4 Eclipse IDE介绍-3

2.1.5 HTML语言介绍-4

2.2 系统开发框架概述-4

2.2.1 PhantomJS-4

2.2.2 Xpath-4

第三章 可行性分析-6

3.1 技术可行性-6

3.2 经济可行性-6

第四章 需求分析-7

4.1 系统功能模块分析-7

4.2 数据流图及用例图-7

第五章 系统设计与实现-8

5.1 系统爬虫功能设计-8

5.1.1 URL 地址内容剖析-8

5.2 系统数据库操作功能设计-10

5.3 系统数据库设计-10

5.4 程序结构-11

5.5 爬虫的实现-12

5.6 界面展示的实现-14

5.6.1 HTML前端界面展示-14

5.6.2 分页展示-14

5.6.3 处理爬取的数据-搜索查询展示-14

5.6.4 处理爬取的数据-当前界面内的数据搜索-15

5.6.5 Python爬取展示-15

5.6.6 PyCharm console界面展示-16

5.6.7 爬取数据后-16

第六章 系统测试-17

6.1 测试概述-17

6.2 可用性测试-17

6.2.1 数据库操作-17

6.2.2 数据爬取-17

6.3 安全性测试-18

6.4 系统测试结果总结-19

第七章 总结以及展望-20

7.1 总结-20

7.2 展望-20

参考文献-22

致   谢-24

 附  录-25

相关论文资料:
最新评论
上传会员 暖暖大将军 对本文的描述:采集网购商品信息的Python爬虫系统使用PhantomJS框架进行开发,PhantomJS提供了一系列的API供开发者调用获取界面动态加载信息,实现一些不易实现的功能,如网页自动化,动态爬虫等等,......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: