一、引入
前面我们已经提到, 算法是 算法的优化版本,核心改进就是在 算法的生成过程中,使用了信息增益率(information gain ratio)作为节点划分的属性选择标准,来解决信息增益作为选择标准时倾向于选择取值较多的属性的问题。
二、 算法介绍
信息增益率是信息增益与特征熵的比值,计算公式如下:
通常属性 的可能取值数目越多(即 越大),则 的值越大,而 就会越小,这样就能够降低节点划分时选择取值较多的属性的倾向性。
信息增益率越高,说明分裂的效果越好。
三、算法不足
(1)倾向于选择取值数目较少的属性。
以信息增益率作为节点划分时的属性选择标准并不是万无一失的,因为该标准的不足之处是对可取值数目较少的属性有所偏好,因此, 算法并不是直接选择信息增益率最大的属性进行划分,而是使用了一种启发式的方法,即先从候选划分属性中找出信息增益高于平均水平的属性,然后再从中选择信息增益率最高的属性进行划分。
(2)生成的是多叉树,计算效率有待提高。
(3)只能处理分类问题,不能处理回归问题。
(4)剪枝方法仍需优化。
请根据本节内容回答以下问题:
算法的特征选择偏好是什么?如何解决呢?