三、特征工程:
特征工程就是从原始数据中最大限度的提取特征,以更好地代表预测模型的潜在问题,目的是提高模型对未知数据预测的准确性。
数据预处理使得数据规范了很多,接下来可以进行数据的“特征工程”,具体操作如下:
(1)特征的提取
(2)数据的降维
数据预处理和特征工程是机器学习的必备基础步骤,数据挖掘过程中很多时间就花在它们上面。
四、建模:
建模过程中,首先涉及到的是模型选择,通常我们要根据数据集特性以及经验选择一个或几个合适的模型,选择模型主要涉及到以下几个方面:
(1)问题领域
(2)数据量大小
(3)训练时长
(4)模型的准确度等
接下来就是模型的训练,把数据集分成训练数据集和测试数据集,然后用训练数据集来训练模型。训练过程中,模型通过数据学习到数据集中包含的规律。