| 需要金币: |
资料包括:完整论文 | ![]() | |
| 转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:22068 | ||
| 折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:粒计算的概念于1979年提出,它是一个广泛术语,涵盖了粒度的相关理论、方法学、技术和工具。其意在求解问题的过程中,使用粒子将信息粒化,将一类对象根据不可分辨关系、相似性等特征划分为等价类集合。如果用粒度的概念对信息数据进行分析,再将粒度分层,推断信息粒的语义以及它们之间的关联,分析结果会提高后续的大数据处理的准确性和效率。选择合适的粒度建模,实现对特定粒计算模型的支持,可以更好地进行海量数据分析。 本课题的研究工作主要围绕基于MapReduce编程模型的粒计算属性约简实现与应用展开,首先介绍了粒计算模型之一的粗糙集理论,着重研究了粗糙集理论中的属性约简。其次介绍了Hadoop框架的原理和模型,着重研究了Hadoop核心的MapReduce算法。接着分析了基于属性重要度的属性约简算法,根据肝病医学数据集实现了基于属性重要度的属性约简算法。然后将属性约简算法与MapReduce编程模型进行结合,实现了基于属性重要度的属性并行约简算法。最后,在肝病数据集上进行了相关的算法实验分析,证明了MapReduce和粒计算属性约简算法结合的可行性,解决了属性约简算法无法快速处理大规模数据的问题,去除了冗余属性也让医学报表更直观,患病预测更快速准确。 本课题提出了一种基于MapReduce编程模型的属性约简算法,对大数据并行计算和数据挖掘领域具有一定的参考意义。
关键词:粗糙集;粒计算;属性约简;Hadoop框架;MapReduce编程模型
目 录 摘 要 ABSTRACT 第一章 绪论-1 1.1课题研究背景及意义-1 1.1.1课题研究背景-1 1.1.2课题研究意义-1 1.2国内外研究现状-2 1.2.1粒计算的研究现状-2 1.2.2 MapReduce发展-3 1.3论文研究内容及结构安排-3 1.3.1论文研究内容-3 1.3.2论文结构安排-4 第二章 粒计算相关理论和属性约简算法研究-5 2.1粗糙集理论-5 2.1.1信息系统-5 2.1.2等价关系和不可分辨关系-6 2.1.3上近似、下近似和边界区域-7 2.2属性约简-10 2.2.1属性重要度-10 2.2.2属性核-11 2.2.3基于属性重要度的属性约简算法-11 第三章 MapReduce编程模型和Hadoop框架集群搭建-16 3.1 MapReduce编程模型-16 3.1.1 Map阶段描述-17 3.1.2 Reduce阶段描述-18 3.2 Hadoop框架集群搭建-20 3.2.1使用NAT模式搭建集群-21 3.2.2 Hadoop框架介绍及搭建-21 3.2.3启动Hadoop集群-24 第四章 基于MapReduce编程模型的粒计算属性约简算法-26 4.1 MapReduce属性约简算法思想与框架-26 4.1.1可行性研究-26 4.1.2融合方式-26 4.2 MapReduce融合属性约简算法的实现-27 4.2.1 MapReduce属性约简过程-27 4.2.2算法实现核心代码-30 4.3实验调试过程与结果分析-33 4.3.1模拟新冠训练集-33 4.3.2 MapReduce属性约简集合-33 4.3.3实验结果分析-35 第五章 粒计算属性约简算法在肝病数据集中的应用-36 5.1肝病医学数据集-36 5.2可行性与需求分析-38 5.3肝病数据属性约简设计-39 5.3.1总体设计-39 5.3.2详细设计Map阶段-42 5.3.3详细设计Reduce阶段-44 5.4集群调试-52 5.5实验结果分析和预测-55 第六章 总结与展望-57 6.1论文工作总结-57 6.2未来展望与研究方向-57 参考文献-59 致 谢-61 |

