| 需要金币: |
资料包括:完整论文 | ![]() | |
| 转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:11479 | ||
| 折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:针对淘宝网这种被JavaScript渲染的网页,在Spyder开发环境下基于Python3语言,采用Selenium库进行信息的抓取,对淘宝书籍信息爬取后,可得到书名、店铺名、书的价格与销售量等信息,并把抓取结果以csv的形式保存下来。通过画出售价与购买人数的散点图后,对结果进行分析,发现最佳定价为40元或70元时,书的销售量最高。此外,为了进一步实现自动抓取,采用保存登录状态至本地后,直接提交Cookies的方法实现免登录下抓取书籍信息。最后针对在爬取过程中可能存在的异常,采用try except方法进行捕获,以获得更鲁棒的爬取方案。 关键词: 淘宝网;Python3;Selenium;免登录
目 录 摘 要 ABSTRACT 第一章 爬虫相关概述-1 1.1 爬虫介绍-1 1.2 HTML介绍-1 1.3 Python介绍-1 1.4 Anaconda介绍-2 1.5 Robots介绍-2 1.6 会话与Cookies-2 第二章 爬虫流程介绍-4 2.1 获取网页-4 2.2 提取信息-4 2.3 保存数据-4 2.4 设计流程-4 第三章 爬虫的程序设计-5 3.1 使用请求库-5 3.1.1 使用urllib库-5 3.1.2 使用requests库-5 3.2 使用正则表达式-6 3.2.1正则表达式介绍-6 3.2.2贪婪匹配与非贪婪匹配-7 3.3 使用解析库-8 3.3.1 简介-8 3.3.2 方法选择器-9 3.3.3 CSS选择器-9 3.4 Selenium的基本使用-10 3.4.1 节点的查找-11 3.5 获取节点的信息-12 3.5.1 获取属性-12 3.5.2 获取文本值-12 3.5.3 获取id、标签名和大小-13 3.6 延时等待-13 3.6.1 隐式等待-13 3.6.2 显式等待-13 第四章 淘宝书籍信息爬取-14 4.1 爬取目标-14 4.2 准备工作-14 4.3 页面跳转-14 4.4 页面信息提取-15 4.5信息保存-16 第五章 结果分析-18 第六章 功能完善-20 6.1 实现“免”登录爬取-20 6.2 对于异常的处理-20 总结-21 参考文献-22 致 谢-23 附 录-24 附录1 保存cookies至本地-24 附录2 淘宝书籍信息爬取-24 附录3 画出散点图-28 |

