一、引入
通过前面的学习我们了解到,在决策树的构建过程其实就是属性不断划分的过程,而当前划分属性的选取标准主要是信息增益、信息增益率以及基尼系数。这也就涉及到了我们常用的决策树算法: 算法、 算法以及 算法。
算法原型见于 的博士论文,该算法基础理论较为完善并且使用较为广泛。但是,完美无缺的算法是基本不存在的, 算法也不例外。因此,在后续过程中,学者们陆续推出了 和 等优化算法。这里,我们先来学习经典的 算法。
二、ID3算法基本流程
算法的核心是以信息增益作为节点划分时的属性选择标准,递归地构建决策树。具体流程如下:
(1)从根节点开始,计算所有可能进行划分的特征的信息增益,也就是依次计算每个属性作为划分属性时对应的信息增益;
(2)从上述计算结果中选择信息增益最大的属性进行节点划分,根据该属性的不同取值建立子节点;
(3)对子节点调用以上方法,不断的进行划分;
(4)直到达到决策树的停止分裂条件。
请根据本节内容回答以下问题:
算法的核心思想是什么?