贝叶斯分类算法

来源:互联网 发布:java商品信息管理系统 编辑:程序博客网 时间:2024/06/05 09:32
    从数学角度来说,分类问题可做如下定义:已知集合:,,确定映射规则,使得任意有且仅有一个使得成立。其中C 叫做类别集合,其中每一个元素是一个类别,而I叫做项集合,其中每一个元素是一个待分类项,f 叫做分类器。分类算法的任务就是构造分类器f。
    下面开始正题:贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。po公式如下:
在生活中经常遇到这种情况:可以很容易直接得出P(A|B),P(B|A)则很难直接得出,但却更关心P(B|A),此时贝叶斯算法就派上用场了。贝叶斯分类器比较有名的实验场景是对垃圾邮件进行分类和过滤。贝叶斯分类器需要依赖历史数据进行学习,假定包含关键词”中奖”的就算作垃圾邮件。假定经过人工筛选找出10封邮件,并对包含关键词”中奖“的邮件标注为垃圾邮件(Spam)。如下图:

将普通邮件和垃圾邮件中出现“中奖”关键词的频率进行汇总,分别记录普通邮件中出现和未出现该关键词的次数和垃圾邮件中出现和未出现该关键词的次数,并分别进行汇总。

  • P(A)=P(垃圾邮件)=0.40
  • P(B)=P(出现关键词)=0.40
  • P(B|A)=P(出现关键词|垃圾邮件)=0.75
  • P(A|B)=P(垃圾邮件|出现关键词)

0 0
原创粉丝点击