回归算法（理论）----------机器学习系列（一）

来源：互联网发布：2017无限申请淘宝小号编辑：程序博客网时间：2024/06/07 07:08

最近一段时间，在学习机器学习算法，这学习的第一个算法是回归算法，算是入门的第一个算法。言归正传，这回归算法，我们的第一印象是以前学过的“线性回归”，这里呢，把这个概念扩展了，线性回归涉及了**高斯分布**、**最大似然估计MLE**和**最小二乘法**。后面延伸的是**Logistic回归**，是分类问题的首选算法，用到的工具有：**梯度下降算法**和**极大似然估计**。下面将对这些概念做详细解释，理解这些后，再看看python代码里是怎么运用的，这样能尽快的掌握这一算法。  正态分布（Normal distribution）又名高斯分布（Gaussian distribution），是一个在数学、物理及工程等领域都非常重要的概率分布，在统计学的许多方面有着重大的影响力。若随机变量X服从一个数学期望为μ、标准方差为σ2的高斯分布，记为：X∼N(μ,σ2),则其概率密度函数为f(x) = {1 \over \sigma\sqrt{2\pi} }\,e^{- {{(x-\mu )^2 \over 2\sigma^2}}}正态分布的期望值μ决定了其位置，其标准差σ决定了分布的幅度。因其曲线呈钟形，因此人们又经常称之为钟形曲线。我们通常所说的标准正态分布是μ = 0,σ = 1的正态分布。

中心极限定理
正态分布有一个非常重要的性质：在特定条件下，大量统计独立的随机变量的和的分布趋于正态分布，这就是中心极限定理。中心极限定理的重要意义在于，根据这一定理的结论，其他概率分布可以用正态分布作为近似。

      似然函数是一种关于统计模型参数的函数，给定输出x时，关于参数θ的似然函数L(θ|x)（在数值上）等于给定参数θ后变量X的概率：                                      L(θ|x)=P(X=x|θ)=P（X=x;θ）      最大似然估计的做法是：首先选取似然函数（一般是概率密度函数或概率质量函数），整理之后求最大值。

这里写图片描述
线性回归的目标函数为：