1. K均值聚类算法
K-Mean(K-均值聚类)算法用于将数据集分成 K 个簇,K 值是由用户给定的,优点:容易实现缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢
2. K均值聚类算法的输入包括
kmeans clustering不属于聚合cluster算法,属于分类classification算法。
3. 简述基本k均值聚类算法
K-均值聚类(K-means)算法是指将数据集分成k个不同的簇,且每个簇的中心采用簇中所含值的均值计算而成。
K-均值算法
1)首先,用户确定簇个数k(计划将数据划分为k个类);
2)随机确定k个初始点作为质心(在数据边界范围之内随机选取);
3)对每个数据实例依次计算到k个质心的距离,选择最小距离的质心,并将其分配给该质心所对应的簇,直到数据集中的所有数据全都分配给k个簇,更新k个簇的质心为该簇所有点的平均值;
4)循环上述步骤3),重新分配每个数据实例到新的质心,直到所有数据的分配结果不再发生改变为止。
4. k均值聚类算法应用
适用条件:系统聚类法适于二维有序样品聚类的样品个数比较均匀。K均值聚类法适用于快速高效,特别是大量数据时使用。
两者区别如下:
一、指代不同
1、K均值聚类法:是一种迭代求解的聚类分析算法。
2、系统聚类法:又叫分层聚类法,聚类分析的一种方法。
二、步骤不同
1、K均值聚类法:步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。
2、系统聚类法:开始时把每个样品作为一类,然后把最靠近的样品(即距离最小的群品)首先聚为小类,再将已聚合的小类按其类间距离再合并,不断继续下去,最后把一切子类都聚合到一个大类。
三、目的不同
1、K均值聚类法:终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。
2、系统聚类法:是以距离为相似统计量时,确定新类与其他各类之间距离的方法,如最短距离法、最长距离法、中间距离法、重心法、群平均法、离差平方和法、欧氏距离等。
5. k均值聚类算法例题
k-means的优点有:
原理简单,实现方便,收敛速度快;
聚类效果较优;
模型的可解释性较强;
调参只需要簇数k;
k-means的缺点有:
k的选取不好把握;
对于不是凸的数据集比较难以收敛;
如果数据的类型不平衡,比如数据量严重失衡或者类别的方差不同,则聚类效果不佳;
- 相关评论
- 我要评论
-