一、如何拆分数据
通常可以将单个数据集拆分为一个训练集和一个测试集。
(1)训练集 —用于训练模型的子集。
(2)测试集 —用于测试训练后模型的子集。
二、拆分数据的一些注意事项:
(1)两个数据集必须相互独立。
(2)确保先进行随机化,再拆分数据。
(3)如果数据集规模很小,可能需要执行诸如交叉验证之类较为复杂的操作。
(4) 请勿对测试数据进行训练。
三、Sklearn数据集拆分代码实践
import pandas as pd
from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()
cancer.data
cancer.feature_names
X = pd.DataFrame(cancer.data, columns=cancer.feature_names)
y = cancer.target
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.3, random_state=0)
说明:
test_size : 从里面抽取出数据的百分比作为测试集
random_state:随机数种子
X_train、y_train:训练集的自变量和因变量
X_test 、y_test :测试集的自变量和因变量