Bayesian Filtering

来源：互联网发布：dnf制裁知乎编辑：程序博客网时间：2024/05/16 11:09

http://gracelancy.com/?p=98

About

贝叶斯过滤算法是一种基于统计学的过滤算法，它使用贝叶斯分类来进行特定类别文本的判别和过滤。

朴素贝叶斯分类器是一种应用基于独立假设的贝叶斯定理的简单概率分类器，这种潜在的概率模型称为独立特性原型。简单的说，朴素贝叶斯分类器假设样本的每个特征都是独立的与其他特征不相关的，尽管这些特征可能存在相互依赖，或者一些特征由其他特征而决定。

公式一 Pr(H | T) = Pr(T | H)·Pr(H) / [Pr(T | H)·Pr(H) + Pr(T | M)·Pr(M)]

其中:

通常情况下，我们会假定Pr(H) = Pr(M) = 0.5，即普遍命中概率和普遍非命中概率相等，这种假定是因为我们不想对出现的文本产生偏见关注。在这个假定下，我们可以将公式化简为：

公式一（简） Pr(H | T) = Pr(T | H) / [Pr(T | H) + Pr( T | M)]

朴素贝叶斯分类器假定每个特征（该应用中为token）都是独立的，则我们可以使用合并概率公式：

公示二 P = P1·P2···Pn / [P1·P2···Pn + (1 - P1)(1 - P2)···(1 - Pn)]

其中：

鉴别给定的微博，判断其是否为抽奖微博，从而为后续操作，比如过滤或者自动参与抽奖，提供基础。

首先收集一定数量的抽奖微博和非抽奖微博，存在不同的两个文件（hitFileName.txt; misFileName.txt）
将两个文件分别读入两个List（hitStringList, misStringList）
对List里的每个string，进行tokenization，并加到对应的两个countTable(dict)，（hitCountTable, misCountTable），countTable用于统计每个token出现的次数。
- 例：hitCountTable[token]表示token在命中文本中出现的次数）
将countTable转换为对应的probabilityTable，（hitProbabilityTable, misProbabilityTable）:单个token出现的次数 / 整个表所有token出现的次数）
- 例：hitProbabilityTable[token]表示token在命中文本重出现的概率
用公式一，由hitProbabilityTable和misProbabilityTable求得tokensProbabilityTable
- tokensProbabilityTable[token]表示当一条文本有token存在的时候，命中指定类别文本的概率
由给定string，分词后，找出它们其在tokensProbabilityTable的概率，用公式二，既可以求出该文本命中指定类型文本的概率

代码在Github开源托管传送门