机器学习开发流程图
一、 数据采集:
要做任何分析,首先需要获取到对应的数据。例如:想要作房价分析,我们就需要大量不同特征的房子信息和所对应的价格信息,如房子的面积、地理位置、朝向、价格等。
说明:
(1)这些数据叫做训练样本或数据集。
(2)房子的面积、地理 位置等称为特征。
在数据采集阶段,需要收集尽量多的特征。特征越全,数据越多,训练出来的模型才会越准确。
二、数据预处理:
原始数据集可能存在的诸多不规范问题:
(1)数据缺失
(2)分布不均衡
(3)存在异常数据
(4)混有无关紧要的数据等
这就需要我们对收集到的数据进行进一步的处理,包括:处理缺失值、处理偏离值、数据规范化、数据的转换等,这样的步骤叫做“数据预处理”。