| 需要金币: |
资料包括:完整论文 | ![]() | |
| 转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:20770 | ||
| 折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.docx) |
摘要:我们现在所处的时代是大数据时代,伴随着这样一个时代的到来,机器学习技术开始快速发展并广泛应用在我们的生活中,而聚类分析就是传统机器学习算法中常用的方法之一,聚类分析具有简单,实用和高效的功能,因此得到了广泛的支持和良好的应用,它用于许多领域,例如文档聚类,市场细分,图像细分和特征学习。因此本文选择对聚类分析中基于划分的K-均值算法进行研究。
本文研究内容主要包含以下几个方面:首先,分析选题的背景与意义,介绍数据挖掘和聚类算法等相关知识,理解并描述出K-均值算法的思想和过程;其次,通过广泛查找文献熟悉K均值算法在各个领域的应用,用python语言实现应用并突出K-均值算法在其中的作用;最后,结合K均值算法自身的缺陷,对算法进行改进。
本文在第一章介绍了该主题的背景和重要性以及国内研究的现状;第二章详细介绍了一些相关知识,比如数据挖掘和聚类分析的概念和类型,K-均值算法就属于其中的无监督学习;第三章详细描述了K-均值算法的思想过程,归纳了算法的优缺点,对二维数据实现聚类并分析聚类结果;分别从四个应用中突显出K-均值算法的实现作用,先是对热映电影《你好,李焕英》的影评提取特征值进行文本向量化从而实现聚类效果,将影评分为五类;再从京东的手机销售数据入手,以销售价格和评论数为特征进行聚类,分析出手机的畅销度;再对B站知识区职业职场类的视频数据包含播放量、点赞数、投币数、收藏数等特征进行聚类,挖掘出高价值的UP主,最后根据淘宝用户的行为利用RFM模型对用户进行聚类分层,有利于对不同的用户施行不同的方案。第四章从K-均值算法的K值和K个初始中心点的选择入手,对这两个不确定初始项进行优化改进,利用手肘法、轮廓系数法选择最优K值,以中心点应尽可能远为原则选取最优中心点。最后两章分别做了结论和致谢。
关键词:机器学习;数据挖掘;聚类分析算法;K-均值算法
目录
摘要
Abstract
第1章 绪 论 1
1.1背景与意义 1
1.2国内外发展(应用)现状 2
1.3论文所做工作及思路 3
1.4论文章节安排 3
第2章 相关知识介绍 4
2.1数据挖掘 4
2.1.1数据挖掘的定义 4
2.1.2数据挖掘的功能及意义 4
2.1.3数据挖掘算法的类型 4
2.2聚类分析 5
2.2.1聚类分析的定义 5
2.2.2聚类分析方法的类别 5
2.2.3聚类效果的评价指标 6
2.3数据爬虫与数据可视化 8
2.3本章小结 8
第3章 K-均值聚类算法的概述及应用 10
3.1K-均值聚类算法 10
3.1.1K-均值算法思想 10
3.1.2K-均值算法的优缺点 10
3.2K-均值算法的实现与应用 11
3.2.1K-均值算法的核心代码实现 11
3.2.2K-均值算法的应用之《你好,李焕英》影评聚类分析 14
3.2.3K-均值算法的应用之京东手机销售数据分析 20
3.2.4K-均值算法的应用之挖掘知识区职业职场类高价值B站UP主 23
3.2.5K-均值算法的应用之淘宝用户行为分析 26
3.3本章小结 29
第4章 K-均值聚类算法的改进与评估 30
4.1对K值的指定进行改进 30
4.1.1手肘法选取最优K值 30
4.1.2轮廓系数法选取最优K值 31
4.2对初始中心点的选取进行改进 31
4.3本章小结 33
第6章 结 论 34
致 谢 35
参考文献 36 |

