基于Web的微博数据爬虫及数据分析平台.docx

资料分类:计算机信息 上传会员:翩翩起舞 更新时间:2022-05-09
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:9849
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:随着互联网信息技术的快速发展,在如今这个信息时代,数据量的增长速度远远超过的我们的想象。如何迅速的对这些数据进行处理,进行信息的提取以及如何对这些数据进行处理分析,已经成为目前计算机领域一个巨大的难题。而且无论是企业还是政府,对于大数据的掌握起着至关重要的作用。大数据处理技术所蕴含的巨大价值将随着技术的发展。

本文以新浪微博用户信息作为信息载体。对新浪微博的用户信息、文章信息进行收集和分析,对新浪微博信息数据转化成价值的可行性进行了尝试。设计出了一个可以获取新浪微博信息的数据收集,并进行一定的数据分析、数据可视化和数据展示的系统。

关键词:数据可视化;爬虫

 

目录

摘要

ABSTRACT

第1章 绪论-1

1.1国内外相关研究现状-1

1.1.1国外爬虫研究-1

1.1.2国内爬虫研究-1

1.2系统设计的意义-1

1.3系统设计的相关技术-2

1.3.1爬虫相关技术-2

1.3.2数据可视化相关技术-2

第2章 系统需求分析-4

2.1可执行性研究-4

2.2系统需求分析-4

2.2.1业务需求分析-4

2.2.2系统用例分析-5

第3章 系统概要设计-9

3.1爬虫策略-9

3.1.1对新浪微博流程分析-9

3.1.2 爬虫策略选择-9

3.2系统总体设计-9

3.2.1系统流程总设计-10

3.2.2 数据爬取模块-10

3.2.3数据存储模块-12

3.2.4数据分析模块-13

3.3数据库设计-14

3.3.1数据库逻辑设计-16

3.3.2数据库物理设计-16

第4章 详细设计-19

4.1包设计-19

4.2类设计-19

4.2.1 action包中的类-20

4.2.2 Dao包中的类-20

4.2.3 entity包中的类-21

4.2.4 service包中的类-21

4.2.5 Util包中的类-22

第5章 系统实现-24

5.1平台登陆界面-24

5.2平台主界面-24

5.3爬虫界面-25

5.4数据管理界面-27

5.5 据可视化界面-28

第6章 系统测试-31

6.1测试概述及目的-31

6.2测试方法-31

6.3测试用例-32

6.4测试结果-33

结束语-34

致谢-35

参考文献-36

相关论文资料:
最新评论
上传会员 翩翩起舞 对本文的描述:访问速度与瓶颈的问题如下:爬虫的访问速度依赖于网速和开发者爬虫程序的水平,而大部分商业网站都对爬虫经行反爬虫机制,其中最简单就是通过频率限制。如何高效抓取?如果数......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: