| 需要金币: |
资料包括:完整论文 | ![]() | |
| 转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:18252 | ||
| 折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:由于计算机的普及,在互联网上观看视频已经成为许多人每天不可缺少的活动,视频网站如雨后春笋般涌现出来。这些网站凭借其良好的宣发能力和丰富的视频类型,吸引了各行各业的人们,根据信息分析的产物应运而生。 本系统根据时下热门的大数据理念,对视频网站中用户点击各类栏目进行模拟分析,获得用户的喜好信息,有了用户“私人订制”的信息就可以根据此类信息分析用户的行为习惯,从而对用户进行准确推送,更加精准的为用户推荐他们感兴趣的内容。系统模拟用户进入视频网站实时点击网站中的各类栏目,将用户行为产生的数据保存到日志文件中,利用Spark Streaming技术对所得的数据进行数据清洗,将所得数据保存到数据库中,实现了对视频网站中截止到当前时间下每个栏目的访问量,最后将得到的结论进行可视化方便用户观看。
关键词:大数据;视频网站;访问量;数据清洗;可视化
目录 摘要 Abstract 1 绪论-1 1.1 研究背景与意义-1 1.2 研究现状-2 1.3 存在的问题-3 1.3.1 大数据时代下思维与资源方面的问题-3 1.3.2 大数据时代下的信息分析问题-4 1.3.3 大数据时代下的数据安全问题-5 1.3.4 大数据时代下人才缺乏问题-6 1.4 论文的组织结构-6 2 相关理论与技术-8 2.1 大数据的Hadoop框架-8 2.2 大数据的Spark框架-9 3 基于大数据的spark streaming框架的视频网站实时流统计实现-12 3.1 引言-12 3.2 相关工作-12 3.2.1 集成开发环境的搭建-12 3.2.2 Spark开发环境Maven的搭建-19 3.2.3 安装和配置Linux系统下的spark开发环境-20 3.3 关于开发基于spark streaming框架的技术-22 3.3.1 数据收集Flume Source-22 3.3.2 Sparking Streaming实时计算框架-25 3.4 基于Spark Streaming的实时流统计与实现-26 3.4.1功能模块设计-26 3.4.2 数据库设计-27 3.4.3模块详细设计-28 4 总结和展望-33 结 论-34 参 考 文 献-35 致 谢-36 |

