基于Python的电商数据的抓取与分析.docx[原创毕业论文]

摘要：随着网络技术的不断发展与壮大，网络信息过载已经成为了不争的事实。因此，如何高效的获取网络上的信息并对其进行筛选，使其变为有用的信息，成为了一件当下急需解决的难题。而网络爬虫的诞生，便使得这一难题迎刃而解，同时也将掀起一股关于数据获取和分析的“浪潮”。

本系统使用基于python的爬虫，通过头部的伪装，利用浏览器向服务器发送请求，把获得的服务器的返回的数据进行筛选，然后把所得的数据进行转储到数据库中，最终利用python的各种功能模块对所得的数据进行分析，以此得到数据的特点。

通过本系统的分析后，我们能够清楚的看出男士衬衫销量与地区的关系，同时还能够得出价格与地区的关系。以便供用户进行参考。

关键词：python python爬虫数据分析

摘要

Abstract

1.引言-1

1.1 课题研究背景、现状及展望-1

1.2 课题研究意义及其主要研究内容-2

2.系统的研发环境与技术-3

2.1系统的研发环境-3

2.2 关键技术简介-3

2.2.1 python简介-3

2.2.2 爬虫技术与数据分析技术-4

2.2.3 HTML-4

2.3 本章小结-5

3.系统功能分析与设计-6

3.1功能需求分析-6

3.2 系统总体结构-6

3.3 爬虫系统-8

3.4 数据存储系统-9

3.5 本章小结-10

4. 系统实现-11

4.1 输入模块-11

4.1.1 URL-11

4.1.2 urllib.request模块-11

4.1.3 re模块-11

4.1.4头部伪装-12

4.2 抓取模块-12

4.2.1 URL和html的介绍-12

4.2.2 urllib.request模块的介绍-13

4.2.3数据抓取-13

4.3 分析模块-17

4.4 最终结果-21

4.5 本章小结-24

5.系统工作总结-25

5.1系统完成过程遇到的问题-25

5.2系统的提升空间-25

6.系统开发与环境的关系-26

结语-27

参考文献-28

致谢-29