前言:
基于上节我们对KNN算法原理和算法流程的介绍,不然看出,我们需要关注两个重点问题:一个是K值的确定(在第三节详细介绍),另一个是距离的度量(本节介绍)。
KNN算法的「距离」在二维坐标轴就表示两点之间的距离,计算距离的公式有很多。
一、欧式距离
我们常用欧拉公式,即“欧氏距离”,也就是我们常说的距离平方和开平方。
回忆一下:
(1) 一个平面直角坐标系上,如何计算两点之间的距离?
(2) 一个立体直角坐标系上,又如何计算两点之间的距离?
如上图所示:空间中 和 两个点,它们的距离等于 和两坐标差的平方和再开根号。如果在三维坐标中,多了坐标,距离计算公式也相同。
引出欧式公式:
当特征数量有很多个形成多维空间时,再用上述的写法就不方便了,我们换一个写法,用 X 加下角标的方式表示特征维度。则在n维空间中,有两个点 A 和 B,它们的坐标分别为:
则A和B两点之间的欧氏距离的基本计算公式如下:
而在我们的机器学习中,坐标轴上的值正是我们样本数据上的个特征。
请根据学习内容回答以下问题:
为什么说两个点在空间中距离越近, 就越容易属于相同的类别呢?