文档过滤
来源:互联网 发布:centos nginx默认目录 编辑:程序博客网 时间:2024/05/21 14:08
1、早期的过滤器
早期的都是基于规则的分类器,使用事先设计好的一组规则,用于指明某条信息属于垃圾信息。典型的规则有:
-英文大写字母的过度使用
-与医药学相关的单词
-过于花哨的HTML用色等
2、智能分类器
a. 特征提取
将单词作为文档的特征,其假设:某些单词相对而言更会出现在垃圾信息中。不过特征未必是一个个单词,他们也可以是词组或者短语,或者任何可以归为文档中缺失或者不存在的其他东西。
如何选取单词也是需要考虑的事情,比如文档的题目、末尾,或者单词的大小写处理
b. 对分类器进行训练
利用已知的文档,训练文档特征与分类之间的关系
c. 计算概率
3、朴素贝叶斯分类器
分类的数学描述
同的核心思想。
a. 贝叶斯公式
朴素的意思是事件A和事件B相互独立。
b. 朴素贝叶斯分类器
分类时我们需要的就是计算某种特征发生时,其属于某种类别的概率。而往往某种类别中某种特征发生的概率更容易知道,再已知某种特征出现的概率和某种类别出现的概率,便可解了。
朴素贝叶斯分类器提供了一种简单的分类方法,但往往我们面对的问题不是“朴素”的,该方法便不再适合了。
4、费舍尔分类器
Fisher线性判别:
Fisher决策的出发点是:把所有的样本都投影到一维空间,使得在投影线上最易于分类 。
那什么是最易于分类的投影面呢?我们希望这个投影面是这样的: 投影后两类相隔尽可能远,而对同一类的样本又尽可能聚集。
参考:带你搞懂朴素贝叶斯分类算法
线性分类器之Fisher线性判别
阅读全文
0 0
- 文档过滤
- 文档过滤
- Naive Bayes 文档过滤
- Java过滤html文档
- 纹理过滤不清楚,转贴些文档记录
- 集体智慧编程学习笔记--文档过滤
- python过滤html文档中的Tag标签
- 过滤钩子驱动程序一(微软DDK文档,FLASHSKY翻译)
- .NET脏字过滤算法 — IT传媒网技术文档
- 文档过滤(集体智慧编程第6章)
- 集体智慧编程学习笔记之文档过滤
- 朴素贝叶斯分类应用——文档过滤
- 《集体智慧编程》第6章 文档过滤 个人笔记
- 过滤文档字符串中外网链接---正则匹配
- 过滤
- 过滤
- 过滤
- 过滤
- 共享内存
- 开2个坑,也算是督促自己学习
- 2N7002这个场效应管做开关
- opencv for pyhthon (4) 把鼠标当画笔
- leetcode125-Valid Palindrome
- 文档过滤
- Lucene的简单使用
- 欢迎使用CSDN-markdown编辑器
- Unity 发布webgl 网页自适应
- Android 7.1 GUI系统-vsync信号的产生和接收(五)
- Shingling算法-简单说
- 198. House Robber
- Android Studio升级遇到的问题记录
- MySQL练习