一、聚类的概念
聚类是常见的无监督学习算法。人有归纳和总结的能力,机器也有。简单来说,聚类就是让机器把数据集中的样本按照特征的性质分组,在这个过程中没有标签的存在。其目标是,组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内的相似性(同质性)越大,组间差别越大,聚类就越好。
二、深入解读聚类
(1)聚类是一种机器学习技术,它涉及到数据点的分组。给定一组数据点,可以使用聚类算法将每个数据点划分为一个特定的组。
(2)同一组中的数据点应该具有相似的属性/特征,而不同组中的数据点应该具有高度不同的属性/特征。
(3)聚类是一种无监督学习的方法,是许多领域中常用的统计数据分析技术。
(4)聚类与分类的不同在于,聚类所要求划分的类是未知的。
(5)聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。
请根据学习内容回答以下问题:
(1)聚类属于机器学习中的哪种监督方法?
(2)聚合和分类的不同之处是什么?