机器学习一些基本概念

来源:互联网 发布:安徽经济网络电视台 编辑:程序博客网 时间:2024/06/05 02:06

- 交叉熵损失函数

-ylny'-(1-y)ln(1-y')         (y是label, y'是预测为正例的概率)

直观理解:正例时,y'越大越好,y'和lny'单调性一致,-ylny'越小越好;负例时,后半部分起作用,1-y'是预测为负例的概率,该概率越大越好,因此-(1-y)ln(1-y')越小越好;

一句话:正例时,预测为正的概率越大越好;负例时,预测为负的概率越大越好;

信息的熵角度理解:-plnp之和是熵(ln(1/p)是事件的信息量; pln(1/p)之和;信息量的期望; 完美编码时平均编码长度); 交叉熵plnq,使用了“估算”的编码后,得到的平均编码长度(可能不是最短的);只有在估算的分布 q 完全正确时,平均编码长度才是最短的,交叉熵 = 熵;交叉熵反映预测分布和真实分布之间的误差; 变量的不确定性越大(例如几个变量值的概率接近时),熵也就越大,把它搞清楚所需要的信息量也就越大


-梯度

方向导数(任何方向都有)

沿着梯度方向,方向导数是最大的; (梯度是自变量空间的向量;对应到z=f(x,y)里,梯度就是xy平面上的向量)


-xgboost

PDF

损失 = 拟合损失 + 结构损失 (+ 常量)

拟合损失:L(label, y(t-1)+y(t))

泰勒展开,展开到二阶:约等于L(label, y(t-1)) + L'(label, y(t-1))y(t) + L''(label, y(t-1))y(t)^2 ; 第一项放到常数项里;

所有样本的L加和,加和顺序改一下,对t这个子树,最外面sum所有节点,对每个节点,sum落在其上所有样本的L'和L'',y(t)写成w

再加上结构损失sum(w^2)

最后是一个w的二次函数,求最小值即可,w取关于L'和L''的一个式子;

算每棵树的时候,对每个feature,先对值排序,然后从左到右统计sumL'和sumL''即可,边统计边更新最优Loss

对于回归问题,L(label,y)=(label-y)^2,  不需要泰勒展开即可求关于y的最小值;得到残差的概念

对于分类问题,L(label,y)=-label log(1/(1+e^(-y)) - (1-label) log(1/(1+e^y))    对y求导得到L'=y-label;  L''=y(1-y)


- 极大似然估计/ Maximum Likelihood / MLE

模型已定,参数未知”  (实际中,给定样本集,模型不一定是确定的,即模型是有概率的)

独立同分布假设:所有样本点都是独立的;由同一个分布产生;

p(θ|X) 经贝叶斯公式= p(X|θ)p(θ)/p(X)

假设p(θ)对所有θ都是一样的, max p(θ|X)即等价于max p(X|θ)

p(x1, x2, ...xn | θ) 独立同分布假设= p(x1|θ)p(x2|θ)...p(xn|θ)

投硬币问题:设正面概率为p,反面概率为(1-p),得到p^M*(1-p)^N,求最大值,解出p

θ如果是高斯分布:高斯分布生成x的概率公式写上,连乘,等价于取log,求最大值,解出mean和variance

套路:

  (1) 写出似然函数;(θ生成x的概率,连乘起来)

  (2) 对似然函数取对数,并整理;

  (3) 求导数 ;(极值,令导数等于0)

  (4) 解似然方程

注意:最大似然估计只考虑某个模型能产生某个给定观察序列的概率。而未考虑该模型本身的概率这点与贝叶斯估计区别。这句话的意思是说最大似然估计的前提是已知模型,但实际问题中我们也许需要该模型出现的概率大小,比如上面的问题,统计全国人口身高时采用的是正态分布模型,但该做法并没有考虑正态分布模型自身的概率,也许可能服从其他分布模型,所以此处P(正态分布)<1,但在最大似然估计方法中我们认为P(正态分布)=1。(手势识别里,假设每个手势对应一个高斯分布,每个手势类别本身出现的概率p(θ),当时我们认为都一样)

总结:给定一组已知样本,求一个分布参数,使得这个分布生成这组样本的概率是最大的;


-PCA

样本不动;坐标轴改动了;

样本向量,乘以单位向量,得到该样本在该向量上的投影;

主成分:样本们投影值,方差最大的那个轴;

cosθ,即两个向量的夹角余弦值,就是cosine距离公式(内积/两个模);

cosine距离,自带归一化的,适合两个向量用不同度量体系得到的情况;

点乘:一个向量在另一个向量上的投影;



原创粉丝点击