机器学习一些基本概念

来源：互联网发布：安徽经济网络电视台编辑：程序博客网时间：2024/06/05 02:06

- 交叉熵损失函数

-ylny'-(1-y)ln(1-y') (y是label, y'是预测为正例的概率)

直观理解：正例时，y'越大越好，y'和lny'单调性一致，-ylny'越小越好；负例时，后半部分起作用，1-y'是预测为负例的概率，该概率越大越好，因此-(1-y)ln(1-y')越小越好；

一句话：正例时，预测为正的概率越大越好；负例时，预测为负的概率越大越好；

信息的熵角度理解：-plnp之和是熵(ln(1/p)是事件的信息量; pln(1/p)之和;信息量的期望; 完美编码时平均编码长度); 交叉熵plnq，使用了“估算”的编码后，得到的平均编码长度（可能不是最短的）；只有在估算的分布 q 完全正确时，平均编码长度才是最短的，交叉熵 = 熵；交叉熵反映预测分布和真实分布之间的误差；变量的不确定性越大(例如几个变量值的概率接近时)，熵也就越大，把它搞清楚所需要的信息量也就越大

-梯度

方向导数（任何方向都有）

沿着梯度方向，方向导数是最大的；（梯度是自变量空间的向量；对应到z=f(x,y)里，梯度就是xy平面上的向量）

-xgboost

PDF

损失 = 拟合损失 + 结构损失 (+ 常量)

拟合损失：L(label, y(t-1)+y(t))

泰勒展开，展开到二阶：约等于L(label, y(t-1)) + L'(label, y(t-1))y(t) + L''(label, y(t-1))y(t)^2 ; 第一项放到常数项里;

所有样本的L加和，加和顺序改一下，对t这个子树，最外面sum所有节点，对每个节点，sum落在其上所有样本的L'和L''，y(t)写成w

再加上结构损失sum(w^2)

最后是一个w的二次函数，求最小值即可，w取关于L'和L''的一个式子；

算每棵树的时候，对每个feature，先对值排序，然后从左到右统计sumL'和sumL''即可，边统计边更新最优Loss

对于回归问题，L(label,y)=(label-y)^2, 不需要泰勒展开即可求关于y的最小值；得到残差的概念

对于分类问题，L(label,y)=-label log(1/(1+e^(-y)) - (1-label) log(1/(1+e^y)) 对y求导得到L'=y-label; L''=y(1-y)

- 极大似然估计/ Maximum Likelihood / MLE

“模型已定，参数未知” (实际中，给定样本集，模型不一定是确定的，即模型是有概率的）

独立同分布假设：所有样本点都是独立的；由同一个分布产生；

p(θ|X) 经贝叶斯公式= p(X|θ)p(θ)/p(X)

假设p(θ)对所有θ都是一样的， max p(θ|X)即等价于max p(X|θ)

p(x1, x2, ...xn | θ) 独立同分布假设= p(x1|θ)p(x2|θ)...p(xn|θ)

投硬币问题：设正面概率为p，反面概率为(1-p)，得到p^M*(1-p)^N，求最大值，解出p

θ如果是高斯分布：高斯分布生成x的概率公式写上，连乘，等价于取log，求最大值，解出mean和variance

套路：

　　（1）写出似然函数；（θ生成x的概率，连乘起来)

　　（2）对似然函数取对数，并整理；

　　（3）求导数；(极值，令导数等于0）

　　（4）解似然方程

注意：最大似然估计只考虑某个模型能产生某个给定观察序列的概率。而未考虑该模型本身的概率。这点与贝叶斯估计区别。这句话的意思是说最大似然估计的前提是已知模型，但实际问题中我们也许需要该模型出现的概率大小，比如上面的问题，统计全国人口身高时采用的是正态分布模型，但该做法并没有考虑正态分布模型自身的概率，也许可能服从其他分布模型，所以此处P(正态分布)<1，但在最大似然估计方法中我们认为P(正态分布)=1。（手势识别里，假设每个手势对应一个高斯分布，每个手势类别本身出现的概率p(θ)，当时我们认为都一样）

总结：给定一组已知样本，求一个分布参数，使得这个分布生成这组样本的概率是最大的；

-PCA

样本不动；坐标轴改动了；

样本向量，乘以单位向量，得到该样本在该向量上的投影；

主成分：样本们投影值，方差最大的那个轴；

cosθ，即两个向量的夹角余弦值，就是cosine距离公式（内积/两个模);

cosine距离，自带归一化的，适合两个向量用不同度量体系得到的情况；

点乘：一个向量在另一个向量上的投影；

阅读全文

0 0