程序博客网 > 淘宝最过的零食店

朴素贝叶斯的理解实例

来源：互联网发布：淘宝最过的零食店编辑：程序博客网时间：2024/05/16 10:53

朴素贝叶斯分类实例：检测SNS社区中不真实账号

下面讨论一个使用朴素贝叶斯分类解决实际问题的例子，为了简单起见，对例子中的数据做了适当的简化。

这个问题是这样的，对于SNS社区来说，不真实账号（使用虚假身份或用户的小号）是一个普遍存在的问题，作为SNS社区的运营商，希望可以检测出这些不真实账号，从而在一些运营分析报告中避免这些账号的干扰，亦可以加强对SNS社区的了解与监管。

如果通过纯人工检测，需要耗费大量的人力，效率也十分低下，如能引入自动检测机制，必将大大提升工作效率。这个问题说白了，就是要将社区中所有账号在真实账号和不真实账号两个类别上进行分类，下面我们一步一步实现这个过程。

首先设C=0表示真实账号，C=1表示不真实账号。

1: 特征的属性和划分

这一步要找出可以帮助我们区分真实账号与不真实账号的特征属性，在实际应用中，特征属性的数量是很多的，划分也会比较细致，但这里为了简单起见，我们用少量的特征属性以及较粗的划分，并对数据做了修改。

我们选择三个特征属性：a1：日志数量/注册天数，a2：好友数量/注册天数，a3：是否使用真实头像。在SNS社区中这三项都是可以直接从数据库里得到或计算出来的。

下面给出划分：a1：{a1<=0.05, 0.05<a1<0.2, a1>=0.2}，a2：{a2<=0.1, 0.1<a2<0.8, a2>=0.8}，a3：{a=0（不是）,a=1（是）}。

2：获取训练样本

这里使用运维人员曾经人工检测过的1万个账号作为训练样本。

3：计算训练样本中每个类别的频率

用训练样本中真实账号和不真实账号数量分别除以一万，得到：

$P(C=0)=8900/100000=0.89$

$P(C=1)=110/100000=0.11$

4：计算每个类别条件下的各个特征属性划分的频率，训练样本中的统计频率：

$P(a_1<=0.05|C=0)=0.3$

$P(0.05<a_1<0.2|C=0)=0.5$

$P(a_1>0.2|C=0)=0.2$

$P(a_1<=0.05|C=1)=0.8$

$P(0.05<a_1<0.2|C=1)=0.1$

$P(a_1>0.2|C=1)=0.1$

$P(a_2<=0.1|C=0)=0.1$

$P(0.1<a_2<0.8|C=0)=0.7$

$P(a_2>0.8|C=0)=0.2$

$P(a_2<=0.1|C=1)=0.7$

$P(0.1<a_2<0.8|C=1)=0.2$

$P(a_2>0.2|C=1)=0.1$

$P(a_3=0|C=0)=0.2$

$P(a_3=1|C=0)=0.8$

$P(a_3=0|C=1)=0.9$

$P(a_3=1|C=1)=0.1$

5: 使用分类器进行鉴别

下面我们使用上面训练得到的分类器鉴别一个账号，这个账号使用非真实头像，日志数量与注册天数的比率为0.1，好友数与注册天数的比率为0.2。

$P(C=0)P(x|C=0)=P(C=0)P(0.05<a_1<0.2|C=0)P(0.1<a_2<0.8|C=0)P(a_3=0|C=0)=0.89*0.5*0.7*0.2=0.0623$

$P(C=1)P(x|C=1)=P(C=1)P(0.05<a_1<0.2|C=1)P(0.1<a_2<0.8|C=1)P(a_3=0|C=1)=0.11*0.1*0.2*0.9=0.00198$

可以看到，虽然这个用户没有使用真实头像，但是通过分类器的鉴别，更倾向于将此账号归入真实账号类别。这个例子也展示了当特征属性充分多时，朴素贝叶斯分类对个别属性的抗干扰性。

阅读全文

0 0

淘宝最过的零食店

淘宝最过的零食店

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子小丑鱼小丑海报小丑回魂1 小丑起源杰罗姆小丑跳梁小丑小丑表演小丑的英文上单小丑哭泣的小丑小丑照片小丑英文小丑歌词小丑皇小丑的意思小丑恐惧症小丑打野小丑图马戏团小丑恶魔小丑小丑出装小丑扮演者小丑英语小丑皮肤小丑的图片小丑英文小丑的眼泪恐怖小丑小丑演员小丑台词哥谭市小丑流泪的小丑小丑面具小丑哭了女小丑小丑怎么玩小丑语录小丑吧小丑妆小丑技能小丑歌曲