一、引入
我们都知道泰坦尼克号的沉没是世界上最严重的海难事故之一,受难者的重要特征数据集如图所示,当拿到这些数据集时,如何预测一下哪些人可能成为幸存者,是我们需要关注的问题。而今天我们要学习的决策树算法,就可以很好地帮我们解决这个问题。
二、树模型的概念
在我们现实生活中存在很多树模型的实例,他们均可抽象为树,例如:
(1)公司组织架构:董事长-CEO-总监-经理-主管-员工(如图所示);
(2)中国行政区域划分:中国-省-市(县)-街道(小区)-门牌号;
(3)汽车产品库:车-品牌-车系-配置。
在机器学习中,基于树模型的常见算法有: 决策树、随机森林、梯度提升等,它们在各种数据科学问题中被广泛使用,因此对于每一个数据分析人员,学习这些算法并使用它们进行建模是非常重要的。
基于树的学习算法被认为是有监督学习方法中最好的并且是最常用的方法之一。
三、树模型学习算法的优点
(1)使用简单
(2)精确率高
(3)容易解释的特点
(4)更好表达非线性关系