决策树的算法流程
建立决策树模型主要分为三个步骤:
(1)特征选择:特征选择是指从训练数据的众多特征中,选择出一个特征进行当前节点的划分,如何选择有着很多种不同的量化评估标准,这也就衍生出了很多不同的决策算法模型。
(2)决策树生成:根据选择的特征评估标准,从上至下递归的生成子节点,直到决策树停止生长。
(3)决策树剪枝:决策树模型的不足之一就是容易过拟合,所以,模型建成后一般需要剪枝处理,即通过缩小树的结构规模来缓解过拟合。常用的剪枝技术包括预剪枝和后剪枝两种。
A. 预剪枝:在每个节点划分前先进行评估,如果当前节点的划分不能带来模型泛化性能的提升,则停止划分。
B. 后剪枝:先根据已有数据集生成一棵完整的决策树,然后自底向上对非叶子节点进行考察,若以该内部节点对应的子树作为叶节点可以带来模型泛化性能的提升,则将该子树替换为叶节点。以此类推,直达遍历所有的非叶节点。