设计采集书籍信息的python爬虫程序.doc[原创毕业论文]

需要金币：1000 个金币	资料包括：完整论文
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：11479
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.doc)

上一篇：智能单词本的设计与实现.doc

下一篇：设计采集音频文件的python爬虫程序.doc

摘要：针对淘宝网这种被JavaScript渲染的网页，在Spyder开发环境下基于Python3语言，采用Selenium库进行信息的抓取，对淘宝书籍信息爬取后，可得到书名、店铺名、书的价格与销售量等信息，并把抓取结果以csv的形式保存下来。通过画出售价与购买人数的散点图后，对结果进行分析，发现最佳定价为40元或70元时，书的销售量最高。此外，为了进一步实现自动抓取，采用保存登录状态至本地后，直接提交Cookies的方法实现免登录下抓取书籍信息。最后针对在爬取过程中可能存在的异常，采用try except方法进行捕获，以获得更鲁棒的爬取方案。

关键词：淘宝网；Python3；Selenium；免登录

摘要

ABSTRACT

第一章爬虫相关概述-1

1.1 爬虫介绍-1

1.2 HTML介绍-1

1.3 Python介绍-1

1.4 Anaconda介绍-2

1.5 Robots介绍-2

1.6 会话与Cookies-2

第二章爬虫流程介绍-4

2.1 获取网页-4

2.2 提取信息-4

2.3 保存数据-4

2.4 设计流程-4

第三章爬虫的程序设计-5

3.1 使用请求库-5

3.1.1 使用urllib库-5

3.1.2 使用requests库-5

3.2 使用正则表达式-6

3.2.1正则表达式介绍-6

3.2.2贪婪匹配与非贪婪匹配-7

3.3 使用解析库-8

3.3.1 简介-8

3.3.2 方法选择器-9

3.3.3 CSS选择器-9

3.4 Selenium的基本使用-10

3.4.1 节点的查找-11

3.5 获取节点的信息-12

3.5.1 获取属性-12

3.5.2 获取文本值-12

3.5.3 获取id、标签名和大小-13

3.6 延时等待-13

3.6.1 隐式等待-13

3.6.2 显式等待-13

第四章淘宝书籍信息爬取-14

4.1 爬取目标-14

4.2 准备工作-14

4.3 页面跳转-14

4.4 页面信息提取-15

4.5信息保存-16

第五章结果分析-18

第六章功能完善-20

6.1 实现“免”登录爬取-20

6.2 对于异常的处理-20

总结-21

参考文献-22

致谢-23

附录-24

附录1 保存cookies至本地-24

附录2 淘宝书籍信息爬取-24

附录3 画出散点图-28

基于After Effects的文房四宝宣传片设计与实	高校毕业生就业信息管理系统的设计与实	云日记Android移动客户端的设计与实现.d
工程教育认证管理信息系统开发.doc	不同信息提取方法在冠状病毒进化分析中	我国通货膨胀影响因素分析与菲利普斯曲
民族话题情报系统的设计与实现.docx	基于Android的电子词典的设计与实现.doc	医院管理系统.docx
大型连锁超市局域网设计与仿真.doc	基于Java的在线考试系统设计与实现.docx	东湖小区信息化管理系统的设计与实现