基于Python的当当网图书爬虫设计和实现.docx[原创毕业论文]

需要金币：1000 个金币	资料包括：完整论文
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：13143
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.doc)

上一篇：基于NB-IoT与RFID的智能门禁系统的设计与实现.docx

下一篇：基于SSM结构的实验设备管理系统设计与实现.doc

摘要：课题主要研究基于python的当当网图书网络爬虫的实现。通过爬虫爬取当当网图书畅销榜书籍数据，根据需求解析出书名，评论数，价格，出版社和价格等数据内容。获取爬取的数据后，对图书数据进行可视化分析，研究当当图书的评论热度，价格区间，出版社图书占比，书名词云以及整体图书内容等，并把分析结果通过可视化web形式展示。

课题爬虫基于python的requests库，通过正则表达式以及python其他解析库进行解析，数据可视化采用了pyecharts库，最后用flask框架实现web展示。

该课题的意义在于通过对当当网爬虫小项目的处理，掌握基于python的爬虫开发技术、了解大数据处理的一般方法。

关键词：python；网络爬虫；flask框架；requests库

摘要

ABSTRACT

第一章绪论-1

1.1 课题简介-1

1.2 本课题的研究现状-1

1.3 课题研究的意义-2

第二章需求分析-4

2.1 系统需求分析-4

2.2 系统功能分析-4

2.3 系统可行性分析-5

2.3.1技术可行性-5

2.3.2 经济可行性-5

2.3.3 操作可行性-5

2.4 开发平台的选择与确定-5

2.5 本系统主要用到的开发技术-6

2.5.1 Python网络爬虫技术-6

2.5.2 Echarts可视化技术-6

2.5.3 数据库基础-6

2.5.4 Flask web框架技术-6

第三章概要设计-7

3.1 功能模块设计-7

3.1.1数据爬取功能模块-7

3.1.2 数据可视化功能模块-8

3.1.3 Flask web展示功能模块-8

3.2 系统用例图设计-9

3.2.1普通用户用例图-9

3.2.2 管理员用例图-10

3.2.3综合用例图-10

3.3 系统体系结构设计-11

3.4 系统数据库设计-12

第四章详细设计与系统实现-13

4.1 图书爬虫详细设计-13

4.1.1 requests模块基本使用-13

4.1.2 正则表达式提取-14

4.1.3 将爬取的数据写入数据库-15

4.2 数据可视化-16

4.2.1 评论热度柱状图-17

4.2.2 价格区间图书占比-18

4.2.3 出版社图书占比-19

4.2.4 书名词云-21

4.3 Flask web框架-22

4.3.1 网页主页显示-22

4.3.2 查看图书信息-22

4.3.3 web展示评论热度柱状图-24

4.3.4 web展示出版社图书占比饼图-25

4.3.5 web展示价格区间图书占比饼图-26

4.3.6 web展示书名词云-27

第五章系统测试-28

5.1 系统测试的目的和重要性-28

5.2 系统测试的方法-28

5.3 设计测试用例-28

5.4 测试结果-32

第六章总结与展望-33

6.1总结-33

6.2展望-33

参考文献-34

致谢-35

企业固定资产管理系统的设计与实现.do	家具销售网站的设计与实现.doc	基于H5的射击小游戏设计与开发.doc
家庭理财管理系统的设计与实现VB+SQL.ra	电子商城系统手机板块的设计和开发.do	基于SSM框架的银河月亮湾公寓管理系统的
基于SSH的家政服务管理系统的设计与实现	鲜花销售网站的设计与实现.docx	基于html5的咖啡店系统的设计与实现.doc
XX网上书店商城的设计与实现.doc	基于SSM框架的OA协同办公系统设计与实现	基于MVC的公交查询系统设计与实现.doc