基础分类算法小结(一)

来源:互联网 发布:淘宝网用电脑登录不了 编辑:程序博客网 时间:2024/04/29 09:59

学习了一些基础分类算法的Python实现,对比之前只看书的方法,这一次看程序帮助理解更深,防止忘记,屡一下思路。

1.朴素贝叶斯(Naivebayes)

(1)原理:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。
1.朴素的含义:特征相互独立性
2.对极大似然估计的修正问题。(防止0概率)
(2)实现:
<1>计算每个分类的类别概率p(y1)、p(y2)...
<2>计算不同类别下各个属性的概率p(x1|y1)、p(x2|y1)、p(x3|y1)...p(x1|y2)、p(x2|y2)...
<3>
p(x|y1)=p(x1|y1)*p(x2|y1)*p(x3|y1)*...

......

<4>求后验概率:p(y1|testx)=p(x|y1)*p(y1)/Σ(对各类来说分母都一样,所以只算分子)

                               p(y2|testx)=p(x|y2)*p(y2)

......

比较后验概率,选择最大的所对应类别。

(3)对于特征相关性不大的预测效果很好


2.k近邻算法(KNN)

(1)实现:<1>计算一个预测样本到各个训练样本的距离(相似度)

<2>k一般指在15以内的奇数,表示离预测样本最近的K个训练样本。

对距离排序后,选择出前K个距离值小的训练样本对应的类别。

<3>K里哪个类别最多,即为预测类别


(2)特点:比较简单的一个方法,准确率一般。K多的时候训练太慢、盲目计算所有距离。
   改进:加权距离、计算压缩到在接近测试样本邻域的小范围内(kd树)

3.逻辑回归(logistics regesstion)
一般用于两类分类
(1)实现: <1>连续值映射到离散二值上,对sigmoid function的理解。(与样本的概率联系起来)
<2>代价函数最小(梯度下降法)训练权值。
<3>做出分类
具体参看洞庭小哥的总结:http://blog.csdn.net/dongtingzhizi/article/details/15962797
(2)用于多分类时候,一对多思想,几个类就训练出几组权值,带入测试数据选择使概率最大的权值对应的类别。(待实现)参看博主bass58的博                                              文:http://blog.csdn.net/bdss58/article/details/42065383




1 0
原创粉丝点击