三、缺失值处理
对于缺失值问题,C4.5算法主要解决了两类问题: (1)在特征存在缺失值的情况下如何进行划分属性的选择; (2)对于已选定的划分属性的缺失值的处理问题。
例如,属性A存在缺失值,那么在节点划分时如何进行属性选择呢?另外,假设我们本次的划分属性为A,但是A属性中却存在缺失数据,应该如何处理呢?
关于C4.5算法对上述两类问题的具体解决方法我们先不做深入的讲解。
四、过拟合问题
对于过拟合问题, 算法主要是通过引入正则化系数进行初步剪枝的方法来缓解。