一、引入
当假设空间中含有不同复杂度的模型时,就要面临模型选择(model selection)的问题。当然,我们希望获得的是在新样本上表现得很好的模型。为了达到这个目的,就应该从训练样本中尽可能学到适用于所有潜在样本的"普遍规律",我们认为假设空间存在这种"真"模型,所以,我们选择的模型应该尽量逼近真模型。
二、欠拟合与过拟合
(1)拟合度
拟合度是指模型对于已有数据集背后的客观规律的掌握程度,如果模型的拟合度较差,则说明当前模型对已有数据集存在的规律捕捉的不完全,将其用作对新样本的分类或预测时可能准确率就不高。
(2)过拟合(overfitting)
当模型把训练样本学得"太好"了的时候,就很可能已经把训练样本自身的一些特点当作了所有潜在样本的普遍性质,这时候模型的复杂度往往会比真模型更高,导致泛化性能下降,表现为方差大,偏差小。
(3)欠拟合(underfitting):
欠拟合是指模型的学习能力低下,导致对训练样本的一般性质也尚未学到,表现为 方差小,偏差大,与过拟合恰恰相反。
在实际操作过程中,判断模型是否存在过拟合现象时,往往是通过观察模型的训练误差和泛化误差来判断。但是对于决策树而言,有一套独有的防止过拟合的解决方案—剪枝。