程序博客网 > 火车头数据采集器简介

回归(regression)和logistic regression

来源：互联网发布：火车头数据采集器简介编辑：程序博客网时间：2024/06/05 22:31

回归

“回归”就是“回归本质”的意思。用一个函数去拟合一组数据(xi,yi)，随着数据越来越多，用来拟合的这个曲线就越来越接近真实的情况。这里xi可以是一个向量, 假设xi∈Rn, 若用线性回归的方法, 首先把它扩展为n+1维, 用来拟合的参数θ∈Rn+1; 其中x0=1, 对应θ0为截距. , 所以函数拟合的是一个n+2维的超平面(θT⋅x−y=0). 拟合后得到的超平面, 输出前n+1维的输入, 可以得到一个输出y.
* linear regression：用直线拟合
* logistci regression：用一种曲线拟合（曲线的形状和sigmoid有什么联系?）

Logistics regression

θT⋅x是linear regression，套一层sigmoid将输出映射到(0,1)。

假设训练集为(x(1),y(1)),(x(2),y(2)),...,(x(m),y(m))；输入特征为x(i)∈Rn+1（我们对符号的约定如下：特征向量x(i)的维度为n+1，其中x0=1，对应截距项）。由于logistic回归是针对二分类问题的，因此类标记y(i)∈{0,1}。假设函数(hypothesis function) 如下：

h θ (x) = 1 1 + e - θ T \cdot x, θ \in R n + 1

Interpretion：

hθ(x(i))=Sigmoid(θT⋅x(i))是

y(i)=1的概率，

1−hθ(x(i))是

y(i)=0的概率(吴恩达，Logistic Regression: Optimization Objective I)

训练θ，使其能最小化代价函数：

J (θ) = - 1 m [\sum i = 1 m log h θ (x (i)) + (1 - y (i)) log (1 - h θ (x (i)))]

为什么cost function定义为这样？
* 首先的确可以定义为squared error的形式，即

J (θ) = 1 m \sum i = 1 m (h θ (x) - y (i)) 2

但是该曲线not convex，即很难找到全局最优。定义为上面的形式则convex。
这里写图片描述

这里写图片描述

* 对某个

(x(i),y(i))分类讨论：
1. 当

y(i)=1时，

cost→∞ when

hθ(x(i))→0;

cost→0 when

hθ(x(i))→1(i.e. y(i))
这里写图片描述

这里写图片描述

2. 当

y(i)=0时，

cost→0(i.e. y(i)) when

hθ(x(i))→0;

cost→∞ when

hθ(x(i))→1
这里写图片描述

这里写图片描述

* 用

log函数的意义在于，它就是好用，而且convex。（这里我也不明白，就先这么记着）

0 0

火车头数据采集器简介

火车头数据采集器简介

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子张志俊燕志俊简介燕志俊桑塔纳志俊图片为什么13年志俊都卖一万多桑塔纳志俊停产原因桑塔纳志俊轮毂价格桑塔纳志俊轮胎桑塔纳志俊二手多少钱二手桑塔纳志俊价格志俊脚垫志俊价格桑塔纳志俊调表桑塔纳志俊新款报价桑塔纳志俊优惠大众3000志俊车内保险盒示意图志俊油耗多少真实油耗二手桑塔纳志俊怎么样大众志俊新车多少钱大众桑塔纳志俊改装二手桑塔纳志俊1.6 桑塔纳志俊改装音响志俊报价桑塔纳志俊2.0at 上海大众志俊 2手桑塔纳志俊桑塔纳志俊噪音大吗桑塔纳志俊油门拉线志俊仪表桑塔纳志俊配件桑塔纳志俊音响改装桑塔纳志俊新车价格大众汽车桑塔纳志俊新桑塔纳和桑塔纳志俊大众桑塔纳vista志俊张志军吉林张志军张志凤张志凤为什么离开中华张志凤离开中华的原因张志凯