一、引入
通过前面的学习,我们知道在决策树的构建过程中,信息增益可以作为节点划分时的属性选择标准,但是,使用信息增益作为属性选择标准有一个不可避免的缺点,那就是整个选择过程中会倾向于选择能产生更多分支的属性,例如,对于性别属性,其取值分为男、女两类,而对于年龄属性,可以分为青年、中年、老年三类,则在运用信息增益选择划分属性时会更倾向于选择年龄属性。为了解决这个问题,我们引入信息增益率的概念。
二、信息增益率的概念
(1)信息增益率
信息增益率是在信息增益与特征熵的比值,计算公式如下:
其中,表示信息增益, 表示训练数据集关于属性 的熵,也称为属性 的“固有值”,通常属性 的可能取值数目越多(即 越大),则 的值越大,而 就会越小,这样就能够降低节点划分时选择取值较多的属性的倾向性。
信息增益率越高,说明分裂的效果越好。 其余符号表示与信息增益中的表达保持一致,这里不再赘述。
(2)举例说明
继续上节提到的例子,信息增益率的计算如下:
可以看出节点 的信息增益为0.285,分母中划分节点属性的熵 为0.97,从而得到作为节点的信息增益率为0.294。