基尼系数的含义
基尼系数,也称为基尼值,同信息熵一样,也是用来衡量信息不纯度的指标之一,计算公式如下:
其中, 代表当前集合 中第 类样本所占的比例。
以二分类问题为例,当节点中两类样本数量相等时,基尼值等于0.5 ;当节点中所有数据均属于同一类时,基尼值等于0 。也就是说,基尼值越大,数据的不纯度越高。