基于大数据的视频网站实时流统计实现.doc

资料分类:计算机信息 上传会员:紫色烟火 更新时间:2022-06-10
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:18252
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:由于计算机的普及,在互联网上观看视频已经成为许多人每天不可缺少的活动,视频网站如雨后春笋般涌现出来。这些网站凭借其良好的宣发能力和丰富的视频类型,吸引了各行各业的人们,根据信息分析的产物应运而生。

本系统根据时下热门的大数据理念,对视频网站中用户点击各类栏目进行模拟分析,获得用户的喜好信息,有了用户“私人订制”的信息就可以根据此类信息分析用户的行为习惯,从而对用户进行准确推送,更加精准的为用户推荐他们感兴趣的内容。系统模拟用户进入视频网站实时点击网站中的各类栏目,将用户行为产生的数据保存到日志文件中,利用Spark Streaming技术对所得的数据进行数据清洗,将所得数据保存到数据库中,实现了对视频网站中截止到当前时间下每个栏目的访问量,最后将得到的结论进行可视化方便用户观看。

 

关键词:大数据;视频网站;访问量;数据清洗;可视化

 

目录

摘要

Abstract

1 绪论-1

1.1 研究背景与意义-1

1.2 研究现状-2

1.3 存在的问题-3

1.3.1 大数据时代下思维与资源方面的问题-3

1.3.2 大数据时代下的信息分析问题-4

1.3.3 大数据时代下的数据安全问题-5

1.3.4 大数据时代下人才缺乏问题-6

1.4 论文的组织结构-6

2 相关理论与技术-8

2.1 大数据的Hadoop框架-8

2.2 大数据的Spark框架-9

3 基于大数据的spark streaming框架的视频网站实时流统计实现-12

3.1 引言-12

3.2 相关工作-12

3.2.1 集成开发环境的搭建-12

3.2.2 Spark开发环境Maven的搭建-19

3.2.3 安装和配置Linux系统下的spark开发环境-20

3.3 关于开发基于spark streaming框架的技术-22

3.3.1 数据收集Flume Source-22

3.3.2 Sparking Streaming实时计算框架-25

3.4 基于Spark Streaming的实时流统计与实现-26

3.4.1功能模块设计-26

3.4.2 数据库设计-27

3.4.3模块详细设计-28

4 总结和展望-33

结    论-34

参 考 文 献-35

致    谢-36

相关论文资料:
最新评论
上传会员 紫色烟火 对本文的描述:在现实中,人们认识到如何有效地解决海量数据的利用问题会给人们带来经济上的效益和学术上的建树。然而,面对如此庞大的数据量和高维复杂的数据结构,如何有效挖掘数据价值是......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: