一、聚类 VS 分类
回顾上节我们学习的KNN算法属于“有监督学习”的一部分,也就是说,模型在训练的时候,即需要特征矩阵 ,也需要真实标签 。
机器学习当中,还有相当一部分算法属于“无监督学习”,无监督的算法在训练的时候只需要特征矩阵 ,不需要标签。无监督学习的代表算法有聚类算法、降维算法。 聚类算法又叫做“无监督分类”,其目的是将数据划分成有意义或有用的组(或簇)。这种划分可以基于我们的业务需求或建模需求来完成。
(1)聚类 VS 分类的对比图:
如图所示: A. 在聚类的过程中,图中左上角的原始数据分布散点图呈灰色,没有用特定的颜色(红色或橙色)区分,也就是说数据没有标签。聚类后将数据分为不同的簇,用红橙黑三色标记,见右上图。在一个簇中的数据就认为是同一类,也就是说这些数据具有相似性。 B. 在分类的过程中,测试样本点用×表示,数据带有标签(左下角红橙黑三色区分),经过分类后测试点×被分到了红色区域,见右下图。
(2)聚类 VS 分类的对比表: