12 探索学习：泛化能力和泛化误差 - 第二节：初识Scikit-learn库

反馈

12 探索学习：泛化能力和泛化误差

代码运行题

一、泛化能力和泛化误差

在业务当中，我们的训练数据往往是已有的历史数据，但我们的测试数据却是新进入系统的一系列还没有标签的未知数据。我们的确追求模型的效果，但我们追求的是模型在未知数据集上的效果， 在未知测试数据集上表现优秀，我们就说模型的泛化能力强， 例如说测试集在模型a的预测准确率为0.9，在模型b的准确率为0.8，那么，就可以说模型a的泛化能力强。

通常说来，测试误差的平均值或者说期望就是泛化误差。我们可以理解成学生多次考试的平均成绩。

我们认为，如果模型在一套训练集和数据集上表现优秀，那说明不了问题，只有在众多不同的训练集和测试集上都表现优秀，模型才是一个稳定的模型，模型才具有真正意义上的泛化能力。为此，机器学习领域有发挥神作用的技能：「交叉验证」（在后面内容介绍），来帮助我们认识模型。

练习指导

查看提示

findNaN.py

Ipython Shell