回归算法(理论)----------机器学习系列(一)

来源:互联网 发布:2017无限申请淘宝小号 编辑:程序博客网 时间:2024/06/07 07:08
最近一段时间,在学习机器学习算法,这学习的第一个算法是回归算法,算是入门的第一个算法。言归正传,这回归算法,我们的第一印象是以前学过的“线性回归”,这里呢,把这个概念扩展了,线性回归涉及了**高斯分布**、**最大似然估计MLE**和**最小二乘法**。后面延伸的是**Logistic回归**,是分类问题的首选算法,用到的工具有:**梯度下降算法**和**极大似然估计**。下面将对这些概念做详细解释,理解这些后,再看看python代码里是怎么运用的,这样能尽快的掌握这一算法。  正态分布(Normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。若随机变量X服从一个数学期望为μ、标准方差为σ2的高斯分布,记为:X∼N(μ,σ2),则其概率密度函数为f(x) = {1 \over \sigma\sqrt{2\pi} }\,e^{- {{(x-\mu )^2 \over 2\sigma^2}}}正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。因其曲线呈钟形,因此人们又经常称之为钟形曲线。我们通常所说的标准正态分布是μ = 0,σ = 1的正态分布。

中心极限定理
正态分布有一个非常重要的性质:在特定条件下,大量统计独立的随机变量的和的分布趋于正态分布,这就是中心极限定理。中心极限定理的重要意义在于,根据这一定理的结论,其他概率分布可以用正态分布作为近似。

      似然函数是一种关于统计模型参数的函数,给定输出x时,关于参数θ的似然函数L(θ|x)(在数值上)等于给定参数θ后变量X的概率:                                      L(θ|x)=P(X=x|θ)=P(X=x;θ)      最大似然估计的做法是:首先选取似然函数(一般是概率密度函数或概率质量函数),整理之后求最大值。 

这里写图片描述
线性回归的目标函数为:
这里写图片描述

这里写图片描述
下面的文字没有显示完全,字体为“R^2越大,拟合效果越好!”

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

以上部分大抵是我看回归算法理论部分的笔记,主要是一些涉及的一些数学概念和回归算法的目标函数,损失函数,似然函数,对数似然函数,参数以及一些python用到的函数的解释等等。以防篇幅太长,我把回归算法的学习分两篇,一篇主要是理论,下一篇主要是用python写回归算法的code。

原创粉丝点击