单变量线性回归原理

来源：互联网发布：ubuntu在shell打开终端编辑：程序博客网时间：2024/06/06 08:53

第一部分：入门

一、机器学习的定义

Arthur Samuel：Field of study that gives computers the ability to learn without being explicitly programmed.

计算机在没有得到明确指令的情况下进行学习并解决问题。

Tom Mitchell ： Well-posed Learning Problem: A computer program is said to learn from experience E with respect to sometask T and someperformance measure P, if its performance on T, as measured by P, improves with experience E.

计算机从经验E中进行学习，表现用指标P衡量，最终完成任务T

二、分类

1.监督学习supervised learning

（1）例子：房价预测

给出的这个例子中，房子面积所对应的房价已知，相当于给了一个确切的数据集合，在这个数据集合的元素中进行学习，找到750对应的房价price

这是一个回归问题（regression）：predict continuous valued output 这个例子中，输出的price本来是一些离散的值，但可以将其看做连续的

（2）例子：良性/恶性肿瘤

这个例子中，也给出了确切数据，每个肿瘤不同的size对应良性 or 恶性，输出离散的值——要么良性0，要么恶性1

也可以不止两个输出，output也可以是0,1,2,3，代表良性肿瘤、癌症1、癌症2、癌症3……

总之，输出是离散的值。这种问题称为分类（classification）

不止是size，还会有其他的因素影响malignant or benign……当影响因素很多很多，甚至infinite，ml中会引入支撑向量机Support Vector Machine（SVM）来解决——这个后面应该会讲吧。。

2.无监督学习unsupervised learning

cluster 聚类

同样是“分类”，classification在于给的这个data set明确地告诉我们结果，谁在哪一类。BUT！cluster（聚类）只给了一堆数据，事先不知道正确答案（谁属于哪一类balabala），需要根据它们所携带的不同特征来进行分类，属于无监督学习

（1）举例：google搜索

输入一个关键词，google可以把与之相关的网页进行聚类，呈现在搜索结果中

（2）举例：DNA and 两个人声的分离 and 人声和音乐声的分离

反正要分清楚cluster和classification啦。

监督学习：被告知正确答案回归（输出连续）、分类（输出离散）

无监督学习：不知道正确答案聚类

第二部分：单变量的线性回归

一、模型的表示

训练集（training set）相当于一本有着相同类型题的例题集，里面有习题（输入x）和习题答案（输出y），以及题目量（m）。做完这本习题集，再给一道同类型的题就能自己做出答案，这就是学习的过程。在做这本习题集（training set）时，会学到解题思路（learning algorithm），从而得到解题的方法（hypothesis）。刚开始，也许你的方法不是最好的。你会用得到的解题方法（hypothesis）去尝试做其他的习题，发现解出来的结果和答案有差别（cost function J），于是不断改进这个方法（hypothesis）直到用它解出来的结果和答案的差别最小（minimize J），这时得到了最佳的解题方法~

单变量 and 线性 ……………… h=θ0+θ1x