文档过滤

来源：互联网发布：centos nginx默认目录编辑：程序博客网时间：2024/05/21 14:08

早期的都是基于规则的分类器，使用事先设计好的一组规则，用于指明某条信息属于垃圾信息。典型的规则有：
-英文大写字母的过度使用
-与医药学相关的单词
-过于花哨的HTML用色等

将单词作为文档的特征，其假设：某些单词相对而言更会出现在垃圾信息中。不过特征未必是一个个单词，他们也可以是词组或者短语，或者任何可以归为文档中缺失或者不存在的其他东西。
如何选取单词也是需要考虑的事情，比如文档的题目、末尾，或者单词的大小写处理

利用已知的文档，训练文档特征与分类之间的关系

分类的数学描述
这里写图片描述同的核心思想。

这里写图片描述
朴素的意思是事件A和事件B相互独立。

这里写图片描述
分类时我们需要的就是计算某种特征发生时，其属于某种类别的概率。而往往某种类别中某种特征发生的概率更容易知道，再已知某种特征出现的概率和某种类别出现的概率，便可解了。
朴素贝叶斯分类器提供了一种简单的分类方法，但往往我们面对的问题不是“朴素”的，该方法便不再适合了。

Fisher线性判别：
Fisher决策的出发点是：把所有的样本都投影到一维空间，使得在投影线上最易于分类。
那什么是最易于分类的投影面呢？我们希望这个投影面是这样的：投影后两类相隔尽可能远，而对同一类的样本又尽可能聚集。
参考：带你搞懂朴素贝叶斯分类算法
线性分类器之Fisher线性判别

阅读全文

0 0