基于Spark的用户日志实时分析可视化平台开发.doc

资料分类:计算机信息 上传会员:紫色烟火 更新时间:2022-06-08
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:8650
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:本文介绍了一个基于Spark的新闻网用户日志实时分析可视化平台的设计与实现。新闻网用户日志实时分析可视化系统是对浏览新闻网站的用户产生的行为日志进行捕捉,实时分析热门流量新闻话题,实时统计当前线上已曝光的新闻话题,统计哪个时段用户浏览量最高的分析平台。平台主要由日志采集系统+存储系统+计算与服务系统+展示系统构成,其中日志采集系统由Flume构成,存储系统由Kafka+MySql+Hbase+Hive+HDFS构成,计算与服务系统由SparkStreaming+HadoopMapReduce构成,展示系统由H5+Echarts构成。

本平台使用目前大数据领域最流行的两个计算框架Spark与Hadoop来分别进行实时计算与离线计算,展示则用大数据可视化Echarts,使数据呈现更具体,形象。本平台开发也完全依照企业中项目的生命周期进行。

本论文根据软件工程的开发流程,对系统的需求分析,概要设计,详细设计,实现等进行阐述,在需求分析阶段,进行了对系统的概要设计,数据库的设计,设计了分析系统的可视化界面。接下来,讨论实现过程中总体系统架构设计,分别介绍数据源层、采集层、存储层、计算层、服务层、接口层与展示层的详细设计。

 

关键词:大数据可视化;Spark;实时

 

目录

摘要

Abstract

1 概 述-1

1.1 开发背景-1

1.2 项目设计目标-2

1.3 系统功能概述-2

2 系统需求及可行性分析-3

2.1 需求分析-3

2.1.1 系统功能需求分析-3

2.1.2 系统非功能需求分析-4

2.2 系统主要技术分析-4

2.3 系统性能需求分析-5

3 系统总体设计-6

3.1 系统总体结构设计-6

3.2 数据流程设计-6

3.3集群资源规划设计-7

4 系统详细设计与实现-9

4.1 系统架构的设计-9

4.1.1 数据源层的设计-9

4.1.2 采集层的设计-10

4.1.3 存储层的设计-12

4.1.4 计算层的设计-14

4.1.5 服务层与接口层的设计-16

4.1.6 展示层-17

4.2 功能的实现-17

4.2.1 实时统计新闻话题曝光量-17

4.2.2 实时展示新闻话题浏览量排行-19

5 系统测试-20

5.1 测试目标与测试方法-20

5.1.1测试目标-20

5.1.2测试方法-20

6 开发总结-22

6.1系统特点-22

6.2 开发体会-22

结    论-23

参 考 文 献-24

致    谢-25

相关论文资料:
最新评论
上传会员 紫色烟火 对本文的描述:数据的不断积累带来的问题就是如何处理这些庞大的数据,怎么从如此庞大的数据中高效率的挖掘出完整的、有价值的信息。为了解决这些问题,大数据生态圈中出现了越来越多的优秀......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: