文档过滤

来源:互联网 发布:centos nginx默认目录 编辑:程序博客网 时间:2024/05/21 14:08

1、早期的过滤器

早期的都是基于规则的分类器,使用事先设计好的一组规则,用于指明某条信息属于垃圾信息。典型的规则有:
-英文大写字母的过度使用
-与医药学相关的单词
-过于花哨的HTML用色等

2、智能分类器

a. 特征提取

将单词作为文档的特征,其假设:某些单词相对而言更会出现在垃圾信息中。不过特征未必是一个个单词,他们也可以是词组或者短语,或者任何可以归为文档中缺失或者不存在的其他东西。
如何选取单词也是需要考虑的事情,比如文档的题目、末尾,或者单词的大小写处理

b. 对分类器进行训练

利用已知的文档,训练文档特征与分类之间的关系

c. 计算概率

3、朴素贝叶斯分类器

分类的数学描述
这里写图片描述同的核心思想。

a. 贝叶斯公式

这里写图片描述
朴素的意思是事件A和事件B相互独立。

b. 朴素贝叶斯分类器

这里写图片描述
分类时我们需要的就是计算某种特征发生时,其属于某种类别的概率。而往往某种类别中某种特征发生的概率更容易知道,再已知某种特征出现的概率和某种类别出现的概率,便可解了。
朴素贝叶斯分类器提供了一种简单的分类方法,但往往我们面对的问题不是“朴素”的,该方法便不再适合了。

4、费舍尔分类器

Fisher线性判别:
Fisher决策的出发点是:把所有的样本都投影到一维空间,使得在投影线上最易于分类 。
那什么是最易于分类的投影面呢?我们希望这个投影面是这样的: 投影后两类相隔尽可能远,而对同一类的样本又尽可能聚集。
参考:带你搞懂朴素贝叶斯分类算法
线性分类器之Fisher线性判别

原创粉丝点击