基于Python的当当网图书爬虫设计和实现.docx

资料分类:计算机信息 上传会员:暖暖大将军 更新时间:2024-08-23
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:13143
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:课题主要研究基于python的当当网图书网络爬虫的实现。通过爬虫爬取当当网图书畅销榜书籍数据,根据需求解析出书名,评论数,价格,出版社和价格等数据内容。获取爬取的数据后,对图书数据进行可视化分析,研究当当图书的评论热度,价格区间,出版社图书占比,书名词云以及整体图书内容等,并把分析结果通过可视化web形式展示。

课题爬虫基于python的requests库,通过正则表达式以及python其他解析库进行解析,数据可视化采用了pyecharts库,最后用flask框架实现web展示。

该课题的意义在于通过对当当网爬虫小项目的处理,掌握基于python的爬虫开发技术、了解大数据处理的一般方法。

 

关键词:python;网络爬虫;flask框架;requests库

 

目  录

摘  要

ABSTRACT

第一章 绪 论-1

1.1 课题简介-1

1.2 本课题的研究现状-1

1.3 课题研究的意义-2

第二章 需求分析-4

2.1 系统需求分析-4

2.2 系统功能分析-4

2.3 系统可行性分析-5

2.3.1技术可行性-5

2.3.2 经济可行性-5

2.3.3 操作可行性-5

2.4 开发平台的选择与确定-5

2.5 本系统主要用到的开发技术-6

2.5.1 Python网络爬虫技术-6

2.5.2 Echarts可视化技术-6

2.5.3 数据库基础-6

2.5.4 Flask web框架技术-6

第三章 概要设计-7

3.1 功能模块设计-7

3.1.1数据爬取功能模块-7

3.1.2 数据可视化功能模块-8

3.1.3 Flask web展示功能模块-8

3.2 系统用例图设计-9

3.2.1普通用户用例图-9

3.2.2 管理员用例图-10

3.2.3综合用例图-10

3.3 系统体系结构设计-11

3.4 系统数据库设计-12

第四章 详细设计与系统实现-13

4.1 图书爬虫详细设计-13

4.1.1 requests模块基本使用-13

4.1.2 正则表达式提取-14

4.1.3 将爬取的数据写入数据库-15

4.2 数据可视化-16

4.2.1 评论热度柱状图-17

4.2.2 价格区间图书占比-18

4.2.3 出版社图书占比-19

4.2.4 书名词云-21

4.3 Flask web框架-22

4.3.1 网页主页显示-22

4.3.2 查看图书信息-22

4.3.3 web展示评论热度柱状图-24

4.3.4 web展示出版社图书占比饼图-25

4.3.5 web展示价格区间图书占比饼图-26

4.3.6 web展示书名词云-27

第五章 系统测试-28

5.1 系统测试的目的和重要性-28

5.2 系统测试的方法-28

5.3 设计测试用例-28

5.4 测试结果-32

第六章 总结与展望-33

6.1总结-33

6.2展望-33

参考文献-34

致 谢-35

相关论文资料:
最新评论
上传会员 暖暖大将军 对本文的描述:图书爬虫系统的设计意义重大。一方面系统提供了大量的图书数据,方便读者用户了解书籍信息。另一方面原先的图书信息收集工作主要依靠人工完成,数据量大耗时费力而且还容易出......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: