基于MapReduce的粒计算数据分析算法研究与应用.docx

资料分类:计算机信息 上传会员:暖暖大将军 更新时间:2024-08-18
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:22068
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:粒计算的概念于1979年提出,它是一个广泛术语,涵盖了粒度的相关理论、方法学、技术和工具。其意在求解问题的过程中,使用粒子将信息粒化,将一类对象根据不可分辨关系、相似性等特征划分为等价类集合。如果用粒度的概念对信息数据进行分析,再将粒度分层,推断信息粒的语义以及它们之间的关联,分析结果会提高后续的大数据处理的准确性和效率。选择合适的粒度建模,实现对特定粒计算模型的支持,可以更好地进行海量数据分析。

本课题的研究工作主要围绕基于MapReduce编程模型的粒计算属性约简实现与应用展开,首先介绍了粒计算模型之一的粗糙集理论,着重研究了粗糙集理论中的属性约简。其次介绍了Hadoop框架的原理和模型,着重研究了Hadoop核心的MapReduce算法。接着分析了基于属性重要度的属性约简算法,根据肝病医学数据集实现了基于属性重要度的属性约简算法。然后将属性约简算法与MapReduce编程模型进行结合,实现了基于属性重要度的属性并行约简算法。最后,在肝病数据集上进行了相关的算法实验分析,证明了MapReduce和粒计算属性约简算法结合的可行性,解决了属性约简算法无法快速处理大规模数据的问题,去除了冗余属性也让医学报表更直观,患病预测更快速准确。

本课题提出了一种基于MapReduce编程模型的属性约简算法,对大数据并行计算和数据挖掘领域具有一定的参考意义。

 

关键词:粗糙集;粒计算;属性约简;Hadoop框架;MapReduce编程模型

 

目   录

摘   要

ABSTRACT

第一章 绪论-1

1.1课题研究背景及意义-1

1.1.1课题研究背景-1

1.1.2课题研究意义-1

1.2国内外研究现状-2

1.2.1粒计算的研究现状-2

1.2.2 MapReduce发展-3

1.3论文研究内容及结构安排-3

1.3.1论文研究内容-3

1.3.2论文结构安排-4

第二章 粒计算相关理论和属性约简算法研究-5

2.1粗糙集理论-5

2.1.1信息系统-5

2.1.2等价关系和不可分辨关系-6

2.1.3上近似、下近似和边界区域-7

2.2属性约简-10

2.2.1属性重要度-10

2.2.2属性核-11

2.2.3基于属性重要度的属性约简算法-11

第三章 MapReduce编程模型和Hadoop框架集群搭建-16

3.1 MapReduce编程模型-16

3.1.1 Map阶段描述-17

3.1.2 Reduce阶段描述-18

3.2 Hadoop框架集群搭建-20

3.2.1使用NAT模式搭建集群-21

3.2.2 Hadoop框架介绍及搭建-21

3.2.3启动Hadoop集群-24

第四章 基于MapReduce编程模型的粒计算属性约简算法-26

4.1 MapReduce属性约简算法思想与框架-26

4.1.1可行性研究-26

4.1.2融合方式-26

4.2 MapReduce融合属性约简算法的实现-27

4.2.1 MapReduce属性约简过程-27

4.2.2算法实现核心代码-30

4.3实验调试过程与结果分析-33

4.3.1模拟新冠训练集-33

4.3.2 MapReduce属性约简集合-33

4.3.3实验结果分析-35

第五章 粒计算属性约简算法在肝病数据集中的应用-36

5.1肝病医学数据集-36

5.2可行性与需求分析-38

5.3肝病数据属性约简设计-39

5.3.1总体设计-39

5.3.2详细设计Map阶段-42

5.3.3详细设计Reduce阶段-44

5.4集群调试-52

5.5实验结果分析和预测-55

第六章 总结与展望-57

6.1论文工作总结-57

6.2未来展望与研究方向-57

参考文献-59

致    谢-61

相关论文资料:
最新评论
上传会员 暖暖大将军 对本文的描述:在公司实际项目的据处理中,不会只用MapReduce编程模型去处理数据,因为其不能够克服数据量繁重、特征复杂、噪音敏感等问题,尤其是目前的大数据行业偏向于处理用户行为、日志信......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: