机器学习week1-3笔记:线性回归、逻辑回归

来源:互联网 发布:埃尔金贝勒数据 编辑:程序博客网 时间:2024/05/16 19:39

大三的时候在学校上过机器学习的课,但是当时听得云里雾里。
这学期比较闲,终于重新开始了好久之前在Coursera报名的机器学习课程,由吴恩达老师讲授。这个课真的讲得超基础,老师会带着推倒公式,绘图,编程等等,演示的非常具体。
做这个笔记也是为了监督自己学习下去吧!

  • 在这里提供一个小Tip:
    在学校网络上,发现Coursera视频不能播放,本机系统为MacOS,在hosts文件中添加如下一行即可:
52.84.246.72 d3c33hcgiwev3.cloudfront.net

下面整理了1-3周的学习笔记。

  • “A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.”
    E:经验 T:任务 P:性能

Machine learning algorithms

  • Supervised learning(监督)已知结果的,有标签的
    比如:1、已知一些房价,回归预测连续的价格2、有一些已判断是否为癌症的样本,分类,判断一个新的例子良恶性
  • Unsupervised learning(无监督)未知结果的,没有标签的
    比如:1、有一些新闻,根据其内容,将内容类似的新闻整理到一起发给用户2、判断社交类型3、从混杂着许多种类的声音中筛出来每种声音(老师用svd做的)。

线性回归 Linear Regression

  • m = Number of training examples 训练样例数量
  • x’s = “input” variable / features 输入的特征、参数
  • y’s = “output” variable / “target” variable 输出、目标值

    这里写图片描述

  • h hypothesis
    hypothesis即假设,这里是假设的算法。将数据输入进算法,就能输出一个预测值
    这里写图片描述

  • 线性回归的假设函数,这里举了三个例子,绿色的是其图像。
    这里写图片描述

  • Cost Function,即为下图中的J(θ0,θ1),目标就是找到最小的Cost Function
    这里写图片描述
    这里写图片描述

  • 梯度下降
    这里写图片描述

    黑线的部分表示下降的过程
    这里写图片描述

!这里要注意,θ0,θ1要同时迭代
这里写图片描述
如果α值太小,就如下图右上角的图像,下降很慢。如果α值太大,会导致跨度过大,梯度上升,如下图右下角。
这里写图片描述
获得的是局部最优解
这里写图片描述

  • 多特征的情况
    这里写图片描述

这里,引入了θ向量,代表θ1θn
这里写图片描述

  • 标准化,消除量纲的误差
    这里写图片描述

  • 梯度下降和标准方程计算α的区别
    这里写图片描述

逻辑回归

这里写图片描述

  • S函数(sigmoid),
    在z>0时,g(z)>0.5,判断为1
    在z<0时,g(z)<0.5,判断为0
    这里写图片描述
    函数如下:
    这里写图片描述
  • 决策边界,

下图中,为线性决策边界。在下图中是那条粗的线,由此线分开两个类别 y = 1 和 y = 0。
这里写图片描述
非线性决策边界显示为圆形或者椭圆或者其他弯曲形状
这里写图片描述

  • Cost Function
    这里写图片描述

这里写图片描述
多类别分类
这里写图片描述

过拟合

习得特征过多,虽然能很好地拟合已有的数据,但是不能准确判断新的数据。
之前看过有人举例,让一个算法学习判断黑天鹅的特征,比如有翅膀,有羽毛等等。如果过拟合的话就是学到了黑色的特征,那么在判断一只白天鹅是否是天鹅时,就会给出错误的结果。

这里写图片描述

解决过拟合的方法:减少特征的数量或者正规化

Options:
1. Reduce number of features.
― Manually select which features to keep.
― Model selection algorithm(later in course).
2. Regularization.
― Keep all the features,but reduce magnitude/values of parameters .
― Works well when we have a lot of features, each of which contributes a bit to predicting

阅读全文
0 0
原创粉丝点击