二、有监督机器学习
(1)定义
有监督学习(Supervised Learning)是指通过大量已知的输入和输出相配对的数据,让计算机从中学习出规律,从而能对一个新的输入做出合理的输出预测。
(2)要点:
A. 指对数据的若干特征与若干标签(类型)之间的关联性进行建模的过程;
B. 只要模型被确定,就可以应用到新的未知数据上。
C. 这类学习过程可以进一步分为「分类」(classification)任务和「回归」(regression)任务。
在分类任务中,标签都是离散值;
在回归任务中,标签都是连续值。
(3)问题分类
有监督机器学习可以分为分类问题 和回归问题 。
A. 分类问题
概念 :
分类是监督学习的一个核心问题,在监督学习中,当输出变量取有限个离散值时,预测问题变成为分类问题。最基础的便是二分类问题,即判断是非,从两个类别中选择一个作为预测结果;
应用
分类问题在于根据其特性将数据“分门别类”,所以在许多领域都有广泛的应用:
(a)银行业务中,构建一个客户分类模型,按客户按照贷款风险的大小进行分类
(b)图像处理中,分类可以用来检测图像中是否有人脸出现,动物类别等
(c)手写识别中,分类可以用于识别手写的数字
(d)文本分类中,这里的文本可以是新闻报道、网页、电子邮件、学术论文
…
B. 回归问题
概念 :
回归问题是监督学习的另一个重要问题,主要用于预测输入变量和输出变量之间的关系,输出连续型数据。
应用
回归在很多领域也有广泛的应用
(a)房价预测,根据某地历史房价数据,进行一个预测
(b)金融信息,每日股票走向
…