基于Hadoop分布式框架的网站用户日志收集与分析系统.doc

资料分类:计算机信息 上传会员:紫色烟火 更新时间:2022-06-06
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:7413
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:互联网的迅猛发展,使得越来越多的人依赖网络来获取他们想要的东西,因此用户在上网过程中产生的网络日志对于一些网站的开发设计公司变得极为的重要。对于一些公司而言这些网络日志对它们来说就像珍宝一样,获得了这些日志,就相当于了解了人们的喜好,并以此设计出令人们满意的网页,使其在竞争激烈的市场下,快速掌握人们的喜好。本次毕业设计,就是在此目标的基础上设计出一个网络日志分析系统,以便于一些公司能从海量的网络日志分析中择取它们想要的用户信息。

本系统的主要功能是对用户在上网过程中产生的一系列网络日志进行处理,通过对这些数据进行清洗和分析,我们可以获得用户浏览网页的次数,在网页的停留时间,用户喜爱的网站等信息,最终将这些结果生成表单,展示在Linux系统上。

系统的功能实现是在centos系统之上安装虚拟机,并且搭建Hadoop的集群环境来以此完成对海量信息的处理和分析,系统在Hadoop的基础上使用hive仓库系统,通过编写sql语言来对网络日志进行操作。并且把最后的结果存储在hdfs上。

 

关键词:分布式文件系统;网络日志;大数据;Hadoop集群

 

目录

摘要

Abstract

1 绪论-1

1.1 课题研究背景-1

1.2 课题相关技术手段-1

1.3 课题研究目的和意义-2

2 相关方法的介绍-3

2.1 Hadoop-3

2.1.1Hadoop简介-3

2.1.2Hadoop特点-3

2.2 Hbase-3

2.2.1Hbase简介3

2.2.2Hbase特点4

2.3 Hive-4

2.3.1Hive简介-.4

2.3.2Hive特点4

2.4 MapReduce工作原理-5

3系统分析-6

3.1 可行性分析-6

3.1.1经济可行性6

3.1.2 技术可行性.6

- 3.2 预期结果.6

4 总体设计-7

4.1 Hadoop体系结构图.7

4.2Hadoop集群拓扑部署图-7

4.3install centos-8

4.4Hadoop集群搭建-10

4.4.1install Hadoop-10

4.4.2配置Hadoop-11

4.4.3配置环境变量-11

4.4.4准备完全分布式主机的ssh-12

4.4.5完全分布式-14

4.5hive的配置与安装-16

4.5.1下载安装包-16

4.5.2安装MySQL-16

4.5.3安装验证hive-17

4.6Hbase配置安装-18

4.6.1环境搭建-18

4.6.2hbase结构图-18

4.6.3Hbase安装与部署-18 

5 总体设计-21

5.1 设计目的-21

5.2功能模块展示-21

5.2.1总体功能模块-21

5.2.2局部功能模块-21

5.3 hive表-22

5.3.1部分字段展示-22

5.3.2生成分区表-22

5.4导入数据-23

5.4.1导入网络日志-23

5.4.2显示分区-23

 6成果展示-24

6.1部分MySQL查询语句-24

6.1.1PV统计-24

6.1.2UV统计-24

6.1.3客户相关设备统计-24

 6.2部分代码展示 -24

 6.3成果展示-25

结论-27

参 考 文 献-28

致谢-29

相关论文资料:
最新评论
上传会员 紫色烟火 对本文的描述:网站日志分析系统,通过用户在网站上留下的信息以及浏览的痕迹,我们可以做出一个精确的分析判断,能够很快统计出一个时间段某一个网站的点击量是多长,以及在这个网页上停留......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: