设计采集书籍信息的python爬虫程序.doc

资料分类:计算机信息 上传会员:暖暖大将军 更新时间:2024-08-12
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:11479
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:针对淘宝网这种被JavaScript渲染的网页,在Spyder开发环境下基于Python3语言,采用Selenium库进行信息的抓取,对淘宝书籍信息爬取后,可得到书名、店铺名、书的价格与销售量等信息,并把抓取结果以csv的形式保存下来。通过画出售价与购买人数的散点图后,对结果进行分析,发现最佳定价为40元或70元时,书的销售量最高。此外,为了进一步实现自动抓取,采用保存登录状态至本地后,直接提交Cookies的方法实现免登录下抓取书籍信息。最后针对在爬取过程中可能存在的异常,采用try except方法进行捕获,以获得更鲁棒的爬取方案。 

关键词: 淘宝网;Python3;Selenium;免登录

 

目  录

摘  要

ABSTRACT

第一章  爬虫相关概述-1

1.1 爬虫介绍-1

1.2 HTML介绍-1

1.3 Python介绍-1

1.4 Anaconda介绍-2

1.5 Robots介绍-2

1.6 会话与Cookies-2

第二章  爬虫流程介绍-4

2.1 获取网页-4

2.2 提取信息-4

2.3 保存数据-4

2.4 设计流程-4

第三章  爬虫的程序设计-5

3.1 使用请求库-5

3.1.1 使用urllib库-5

3.1.2 使用requests库-5

3.2 使用正则表达式-6

3.2.1正则表达式介绍-6

3.2.2贪婪匹配与非贪婪匹配-7

3.3 使用解析库-8

3.3.1 简介-8

3.3.2 方法选择器-9

3.3.3 CSS选择器-9

3.4 Selenium的基本使用-10

3.4.1 节点的查找-11

3.5 获取节点的信息-12

3.5.1 获取属性-12

3.5.2 获取文本值-12

3.5.3 获取id、标签名和大小-13

3.6 延时等待-13

3.6.1 隐式等待-13

3.6.2 显式等待-13

第四章  淘宝书籍信息爬取-14

4.1 爬取目标-14

4.2 准备工作-14

4.3 页面跳转-14

4.4 页面信息提取-15

4.5信息保存-16

第五章  结果分析-18

第六章  功能完善-20

6.1 实现“免”登录爬取-20

6.2 对于异常的处理-20

总结-21

参考文献-22

致  谢-23

附  录-24

附录1 保存cookies至本地-24

附录2 淘宝书籍信息爬取-24

附录3  画出散点图-28

相关论文资料:
最新评论
上传会员 暖暖大将军 对本文的描述:爬虫开始是获取网页,指的是获取网页源代码,网页的源代码包含许多有用的信息[3]。因此,在对网页源代码进行爬网之后,要对源代码进行分析,然后提取必要的信息。用户将请求发送到......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: