6、探索学习：机器学习算法分类（二） - 第二节：垃圾邮件过滤器的智能分辨

反馈

6、探索学习：机器学习算法分类（二）

代码运行题

二、有监督机器学习

（1）定义

有监督学习（Supervised Learning）是指通过大量已知的输入和输出相配对的数据，让计算机从中学习出规律，从而能对一个新的输入做出合理的输出预测。

（2）要点：

A. 指对数据的若干特征与若干标签（类型）之间的关联性进行建模的过程；
B. 只要模型被确定，就可以应用到新的未知数据上。
C. 这类学习过程可以进一步分为「分类」（classification）任务和「回归」（regression）任务。
在分类任务中，标签都是离散值；
在回归任务中，标签都是连续值。

（3）问题分类
有监督机器学习可以分为分类问题和回归问题。

A. 分类问题
概念：
分类是监督学习的一个核心问题，在监督学习中，当输出变量取有限个离散值时，预测问题变成为分类问题。最基础的便是二分类问题，即判断是非，从两个类别中选择一个作为预测结果；
应用
分类问题在于根据其特性将数据“分门别类”，所以在许多领域都有广泛的应用：
（a）银行业务中，构建一个客户分类模型，按客户按照贷款风险的大小进行分类
（b）图像处理中，分类可以用来检测图像中是否有人脸出现，动物类别等
（c）手写识别中，分类可以用于识别手写的数字
（d）文本分类中，这里的文本可以是新闻报道、网页、电子邮件、学术论文
…

B. 回归问题
概念：回归问题是监督学习的另一个重要问题，主要用于预测输入变量和输出变量之间的关系，输出连续型数据。
应用
回归在很多领域也有广泛的应用
（a）房价预测，根据某地历史房价数据，进行一个预测
（b）金融信息，每日股票走向
…

练习指导

查看提示

findNaN.py

Ipython Shell