信息增益的不足之处
(1)不足之处
信息增益存在的缺点是比较偏向选择取值多的属性,属性分支越多,子节点的不纯度就越小,信息增益就越大。
(2)举例说明
为什么是这样呢?我们可以尝试用上节的例子说明(此处增加了样本量)。
A. 把性别作为划分属性时,产生2个分支,计算得到基尼值为0.48;
B. 把年龄层作为划分属性时,产生3个分支,计算得到基尼值为0.1625;
C. 把编号ID作为划分属性时,产生20个分支,得到的基尼值为0。
可以看出,选择ID作为特征,信息增益最大,但是从业务的角度来看,ID这个特征意义并不大,因为每个ID必然只对应一个类别。
针对信息增益的这一不足,我们引出了 算法。