Andrew Ng Machine Learning 专题【Linear Regression】

来源:互联网 发布:人自己人不亦重乎? 编辑:程序博客网 时间:2024/04/28 13:01

此文是斯坦福大学,机器学习界 superstar — Andrew Ng 所开设的 Coursera 课程:Machine Learning 的课程笔记。力求简洁,仅代表本人观点,不足之处希望大家探讨。
课程网址:https://www.coursera.org/learn/machine-learning/home/welcome

Week 3: Logistic Regression & Regularization 笔记:http://blog.csdn.net/ironyoung/article/details/47398843

Week 2:Linear Regression with Multiple Variables

  1. Multivariate Linear Regression
    1. Week 1 讨论仅一个特征,即仅有一个未知量x 影响了目标y 的取值。如果现在有很多特征?现在我们有x 1 ,x 2 ...x n  影响了目标y 的取值。
    2. 此时需要区分的是变量标记规则:
      • x i  表示的是第i 个特征
      • x (i)  表示的是第i 个样本,一个样本是由多个特征组成的向量
      • 例如:x (2) =[x (2) 1 ,x (2) 2 ,x (2) 3 ,...,x (2) n ] T  
      • 综上,我们有h θ (x)=θ 0 +θ 1 x 1 +θ 2 x 2 +...+θ n x n  。可以视为,每个样本都多出一个特征:x 0 =1 ,这样表示有利于之后的矩阵表示
  2. 多变量梯度下降法:

    样本一共有m个
    cost functionJ(θ 0 ,θ 1 )=12m  i=1 m (h θ (x (i) )y (i) ) 2  
    updateθ j :=θ j α1m  i=1 m ((h θ (x (i) )y (i) )x (i) j ) 

  3. Feature Scaling(特征缩放)

    • 很简单,就是将每种特征的数据范围限定在同一个数量级。例如x 1 [0,2000],x 2 [1,5] ,这样会导致迭代次数过多。这时候,如果我们找到一种mapping方式,使得两者属于同一个数量级的范围内,可以有效减少迭代次数
    • 注意:无法降低单次的迭代时间,但是却能有效地降低迭代次数
    • 其实方法很多,这有一种:x=xmean(x)max(x)min(x)  。其中,mean(x) 表示向量每个元素的平均值,max(x) 表示向量中最大元素,min(x) 表示向量中最小元素
  4. Learning Rate
    • learning rate 是机器学习中的一个不稳定因素,如何判断选取的 learning rate 是合适的?我们可以看看以下这幅图:
      Drawing
    • 如果以迭代次数为横坐标,cost function 结果为纵坐标,绘制的图像是递减的,说明 learning rate 选择的是恰当的。如果碰到下图所显示的三种情况,那就只有一条路:减小 learning rate
      Drawing
    • 但是 learning rate 太小同样会导致一个问题:学习过慢。所以,只能靠试:0.001,0.003,0.01,0.03,0.1,0.3……
  5. Polynomial Regression(多项式回归,不同于多变量线性回归)
    • 有时候,我们需要自己创造一些“特征”,来拟合一些非线性分布情况
    • 例如:h θ (x)=θ 0 +θ 1 x 2 +θ 2 x    ,看上去只有一个特征x ,但我们完全可以理解为x 2  x    都是单独的新特征
    • 以后的课程会具体讲述如何选择这些特征
  6. Normal Equation
    • 梯度下降法可以用于寻找函数(cost function)的最小值,想一想,初高中的时候我们使用的是什么方法?最小值点的导数为零,然后解方程
    • 将导数置为零这种方法即 Normal Equation。if θR n+1 θ i  J(θ)= set 0 for every i .
    • 上文提过,增加一个全1分量x 0  后得到x=[x 0 ,x 1 ,x 2 ,x 3 ,...,x n ] T  
    • 可以得到:xθ=yx T xθ=x T yθ=(x T x) 1 x T y 
    • matlab编程十分简单:theta=pinv(X  X)X  y; 
    • Normal Equation 有以下优缺点:
      1. 不需要 learning rate,也就不需要选择;
      2. 不需要迭代,不需要考虑收敛的问题;
      3. 当特征非常多的时候,因为涉及求逆操作,会非常慢(注:方阵才有逆矩阵)
  7. Octave Tutorial
    这一部分十分简单,其实就是MATLAB的使用方法。建议不论是否初学者都去看看,会有收获。
    谈到一个问题:如果现有的样本数,小于每个样本所有的特征数怎么办?去除多余的特征(PCA?)。特征过多,也可能会导致矩阵不可逆的情况(不甚理解)。
    下面记录一些觉得挺有趣的命令:
    1. ~=:不等于号
    2. xor(0, 1):异或操作
    3. rand(m, n):0~1之间的大小为m*n的随机数矩阵;randn:产生均值为0,方差为1的符合正态分布的随机数(有负数)
    4. length(A):返回A中行、列中更大值
    5. A(:):将矩阵A变为列向量形式,不论A是向量还是矩阵
    6. sum(A,1):每列求和得到一个行向量;sum(A,2):每行求和得到一个列向量
    7. pinv:伪求逆;inv:求逆
    8. imagesc(A):帅爆!根据矩阵中每个值绘制各种颜色的方块
    9. A.^2 ~= A^2,后者是两个矩阵相乘
  8. Submitting Programming Assignments
    其实看看视频就行了,主要要注意,submit() 时输入的Token,不是Coursera 的密码,而是作业的密码,在这里:
    这里写图片描述
    编程作业答案:https://github.com/cnauroth/machine-learning-class
1 0
原创粉丝点击