面向大规模数据的密度峰聚类算法研究与实现.doc

资料分类:工业大学 上传会员:小蚊子 更新时间:2019-03-18
需要金币2000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:12531
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:随着大数据时代的到来,数据信息化发展成为核心方向,取得更大的竞争优势都是围绕着数据进行展开。聚类分析通常作为数据挖掘的关键算法之一,常见的聚类分析算法易受噪声数据影响,以及类的边缘数据分类是误差较大。针对此问题,本课题面向大规模数据采用密度峰聚类算法(DPCA)进行研究分析。

本文首先概述了大规模数据的信息挖掘的基本理论,阐述了DM的基本定义,以及其操作。并介绍了DM的主要算法,以及DM的相关应用。其次,在对数据相似性的研究之上,推导了数据聚类的基本理论,并详细地阐述了DPCA算法的原理。最后,采用DPCA对数据进行了类的划分,利用局部密度和高密度点之间的距离对目标数据的密度特性进行了分析,确定了数据可划分为四类,同时也确定了四个类的中心数据点。DPCA对数据分类的结果表明,DPCA算法能对边界不明确的数据集进行划分,且仅需计算一遍,能有效地克服类边缘的噪声数据。

 

关键词:大规模数据;密度峰聚类;聚类分析;DPCA

 

目录

摘要

Abstract

1 绪论-1

1.1 课题的研究背景及意义-1

1.2 国内外相关研究现状-2

1.3 本文主要研究内容和论文框架-3

2 大规模数据的信息挖掘概述-4

2.1 数据挖掘的定义-4

2.2 数据挖掘流程-4

2.3 数据挖掘算法-6

2.4 数据挖掘的应用-6

2.5 本章小结-7

3 聚类分析-8

3.1 相似性度量-8

3.2 聚类分析(CA)-9

3.3 基于密度峰的CA-9

3.3.1 数据密度的概念-10

3.3.2 基于密度峰聚类算法-11

3.4 本章小结-11

4 密度峰聚类在大规模数据挖掘中的应用-13

4.1 仿真软件简介-13

4.2 大规模数据的特征分析-13

4.3 面向大规模数据的DPCA-14

4.4 本章小结-16

结    论-17

参 考 文 献-18

附录A DPCA算法MATLAB代码-19

致    谢-28

相关论文资料:
最新评论
上传会员 小蚊子 对本文的描述:数据挖掘分析为大规模数据的核心部分,其目的是从大规模的、不完整的、其存在干扰因素的、甚至是无规律可寻的数据中,提取其中不可直接得到的具有潜在价值的信息。根据挖掘任......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: