机器学习-监督学习

来源:互联网 发布:空手道数据集 编辑:程序博客网 时间:2024/05/16 04:26

Supervised Learning (监督学习)可能是现在使用得最广泛的机器学习算法



上图是一个预测房价的例子,11个样本(红色×),每个样本都有一个坐标(xi,yi),xi表示房子的面积yi表示房价。

问题:

假设现在有一个不在图中的新的样本(xn,yn),已知xn,即房子的面积,要预测房子的价格yn

思路:

假设有样本(xi,yi)i=1、2、3、4、5.....,利用这些样本,可以拟合出一条线(可能是直线,可能是曲线,etc.),假设y=Θx就是目标函数,求出Θ这是线性回归问题。求Θ的过程叫做训练。用于训练的样本集称作训练集



实际上作为假设,使用直线并不能很好的拟合样本,因为可以观察到,有些样本点距离直线还是比较远的,这样的假设预测出来的结果偏差比较差。所以可能下面蓝色这条线会比直线能更好地拟合数据




所以ml要做的实际上是求蓝色这条曲线所代表的关系式:y=Ф(x)

------------------------------------------------------------------------------------------------

另外一个Supervised Learning的例子,这个例子属于分类问题。



问题:

通过肿瘤的大小来判断肿瘤是恶性,还是良性?

思路:

横坐标x是肿瘤的大小,纵坐标只有两个值,1(恶性)和0(良性),所以样本画在这个坐标上可能就会是这样



蓝色样本点代表良性,因为它们的纵坐标都是0(N),红色样本点代表恶性,因为它们的纵坐标都是1(Y)。


ml要做的跟第一个例子一样,假设出y=Ф(x)来拟合样本点,用训练集训练出这个模型


实际上不可能只通过肿瘤大小来预测肿瘤的良恶性,大多数情况下,参考特征不止一个,也就是说,不仅仅有肿瘤的大小Tumor Size来判断肿瘤的良恶性,还有年龄age。这种情况下用图标描述可能是:


它用公式来表示是y=Ф(x),其中x是一个向量,相当于(x1,x2)x1是Tumor Size,x2当是 Age

原创粉丝点击