| 需要金币: |
资料包括:完整论文 | ![]() | |
| 转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:13143 | ||
| 折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:课题主要研究基于python的当当网图书网络爬虫的实现。通过爬虫爬取当当网图书畅销榜书籍数据,根据需求解析出书名,评论数,价格,出版社和价格等数据内容。获取爬取的数据后,对图书数据进行可视化分析,研究当当图书的评论热度,价格区间,出版社图书占比,书名词云以及整体图书内容等,并把分析结果通过可视化web形式展示。 课题爬虫基于python的requests库,通过正则表达式以及python其他解析库进行解析,数据可视化采用了pyecharts库,最后用flask框架实现web展示。 该课题的意义在于通过对当当网爬虫小项目的处理,掌握基于python的爬虫开发技术、了解大数据处理的一般方法。
关键词:python;网络爬虫;flask框架;requests库
目 录 摘 要 ABSTRACT 第一章 绪 论-1 1.1 课题简介-1 1.2 本课题的研究现状-1 1.3 课题研究的意义-2 第二章 需求分析-4 2.1 系统需求分析-4 2.2 系统功能分析-4 2.3 系统可行性分析-5 2.3.1技术可行性-5 2.3.2 经济可行性-5 2.3.3 操作可行性-5 2.4 开发平台的选择与确定-5 2.5 本系统主要用到的开发技术-6 2.5.1 Python网络爬虫技术-6 2.5.2 Echarts可视化技术-6 2.5.3 数据库基础-6 2.5.4 Flask web框架技术-6 第三章 概要设计-7 3.1 功能模块设计-7 3.1.1数据爬取功能模块-7 3.1.2 数据可视化功能模块-8 3.1.3 Flask web展示功能模块-8 3.2 系统用例图设计-9 3.2.1普通用户用例图-9 3.2.2 管理员用例图-10 3.2.3综合用例图-10 3.3 系统体系结构设计-11 3.4 系统数据库设计-12 第四章 详细设计与系统实现-13 4.1 图书爬虫详细设计-13 4.1.1 requests模块基本使用-13 4.1.2 正则表达式提取-14 4.1.3 将爬取的数据写入数据库-15 4.2 数据可视化-16 4.2.1 评论热度柱状图-17 4.2.2 价格区间图书占比-18 4.2.3 出版社图书占比-19 4.2.4 书名词云-21 4.3 Flask web框架-22 4.3.1 网页主页显示-22 4.3.2 查看图书信息-22 4.3.3 web展示评论热度柱状图-24 4.3.4 web展示出版社图书占比饼图-25 4.3.5 web展示价格区间图书占比饼图-26 4.3.6 web展示书名词云-27 第五章 系统测试-28 5.1 系统测试的目的和重要性-28 5.2 系统测试的方法-28 5.3 设计测试用例-28 5.4 测试结果-32 第六章 总结与展望-33 6.1总结-33 6.2展望-33 参考文献-34 致 谢-35 |

