1)kmeans聚类算法属于无监督学习,没有标签
2)kmeans原理:先随机选择K个质心,根据样本到质心的距离将样本分配到最近的簇中,然后根据簇中的样本更新质心,再次计算距离重新分配簇,直到质心不再发生变化,迭代结束
3)kmeans的sklearn实现
from sklearn.cluster import KMeans #导入kmeans函数
重要参数:
n-clusters #簇的个数
init #初始化质心的方法,默认是Kmeans++
random_state #控制每次质心随机初始化的随机数种子
n_init #使用不同的质心随机初始化的种子来运行k-means算法的次数
max_iter 最大迭代次数
tol #容差,两次迭代间Inertia下降的量
cluster = KMeans(n_clusters=k).fit(X) #实例化
查看模型的各种属性
cluster.labels_ #查看聚好的类别,每个样本所对应的类
cluster.cluster_centers_ #查看质心
cluster.inertia_ #查看总距离平方和
4)聚类算法的评估指标:轮廓系数