Atitit 贝叶斯算法的原理以及垃圾邮件分类的原理
来源:互联网 发布:java程序设计实验心得 编辑:程序博客网 时间:2024/06/12 01:15
Atitit贝叶斯算法的原理以及垃圾邮件分类的原理
1.1. 最开始的垃圾邮件判断方法,使用contain包含判断,只能一个关键词,而且100%概率判断 1
1.2. 元件部件串联定律 1
1.3. 垃圾邮件关键词串联定律表格法可视化贝叶斯定律 1
1.4. 十一、最终的计算公式 2
1.5. 。这时我们还需要一个用于比较的门槛值。Paul Graham的门槛值是0.9,概率大于0.9, 2
1.1. 文氏图,可以很清楚地看到在事件B发生的情况下,事件A发生的概率就是P(A∩B)除以P(B)。
1.2. 最开始的垃圾邮件判断方法,使用contain包含判断,只能一个关键词,而且100%概率判断
那么肯定不适用。。所以使用概率算法,出现一个垃圾词语,比如发票,则会判断概率为90%。。比如在出现另外一个垃圾词,比如购买,那么判断概率就会上升 达到9x%...
1.3. 元件部件串联定律
当一个元件可靠性为70%的时候,那么俩个元件串联起来可靠性就降低了达到70%*70%=49%..
元件并联定律。可以提高可靠性,具体提升的百分点以下计算方法。。
1.4. 垃圾邮件关键词串联定律表格法可视化贝叶斯定律
比如 如果出现发票 这个词,那么此文件垃圾文件的概率为 90%。。
如果 出现 购买 这个词,垃圾文件概率为 80%
得到以下表格----------表格开始----------
词汇
垃圾邮件概率
正常邮件概率
发票
90%
10%
购买
80%
20%
购买发票
90*80=72%(舍弃掉此错误结构
10*20=2%
购买发票
1-2%=98%(根据正常邮件概率反向计算垃圾邮件概率
10*20=2%
--------表格结束=-------
表格解说。。几条规则
第一,如果只是出现发票一词,则垃圾邮件概率为90%,正常邮件概率自然为1-90%==10%
第2,如果只是出现购买一词,则垃圾邮件概率为80%,正常邮件概率自然为1-80%==20%
第三部,如果出现购买发票俩个次,则初步判断垃圾邮件概率为90%*80%=72%,正常邮件概率自然为10%*20%=2%
很明显,如果同时出现多个垃圾关键词。垃圾邮件的概率应该上升才对。。所以舍弃掉72%的错误计算结果。。
第四步。。那么得到正常邮件概率就是2%。。自然垃圾邮件概率就是1-2%==98%了。。。
1.5. 十一、最终的计算公式
将上面的公式扩展到15个词的情况,就得到了最终的概率计算公式:
P=1-(1-p1)*(1-p2)*(1-p3);
一封邮件是不是垃圾邮件,就用这个式子进行计算
1.6. 。这时我们还需要一个用于比较的门槛值。Paul Graham的门槛值是0.9,概率大于0.9,
表示15个词联合认定,这封邮件有90%以上的可能属于垃圾邮件;概率小于0.9,就表示是正常邮件。
有了这个公式以后,一封正常的信件即使出现sex这个词,
1.7. 解决F1和F2是连续变量,不适宜按照某个特定值计算概率。
但是这里有一个问题:F1和F2是连续变量,不适宜按照某个特定值计算概率。
一个技巧是将连续值变为离散值,计算区间的概率。比如将F1分解成[0, 0.05]、(0.05, 0.2)、[0.2, +∞]三个区间,然后计算每个区间的概率。在我们这个例子中,F1等于0.1,落在第二个区间,所以计算的时候,就使用第二个区间的发生概率。
参考资料
朴素贝叶斯分类器的应用 - 阮一峰的网络日志.html
作者:: 绰号:老哇的爪子 ( 全名::Attilax Akbar Al Rapanui 阿提拉克斯 阿克巴 阿尔 拉帕努伊 )
汉字名:艾提拉(艾龙), EMAIL:1466519819@qq.com
转载请注明来源: http://blog.csdn.net/attilax
Atiend
- Atitit 贝叶斯算法的原理以及垃圾邮件分类的原理
- Atitti 文本分类 以及 垃圾邮件 判断原理 以及贝叶斯算法的应用解决方案
- 垃圾邮件分类器的原理(1)
- 垃圾邮件分类器的原理(2)
- atitit.农历的公式与原理以及农历日期运算
- atitit.md5算法的原理 与 总结
- 短信(SMS)的解释分类以及原理
- 朴素贝叶斯分类和预测算法的原理及实现
- 利用朴素贝叶斯算法进行分类的原理
- Atitit 图像处理--图像分类 模式识别 肤色检测识别原理 与attilax的实践总结
- 贝叶斯原理应用:过滤垃圾邮件
- Atitit.异常机制的设计原理
- Atitit.词法分析的理论原理 part2
- Atitit.词法分析的原理 理论
- Atitit 语音识别的技术原理
- Atitit wsdl的原理attilax总结
- 【Python】基于Bayes算法的垃圾邮件分类系统
- atitit。获取表格的字段注释metadata的原理以及AND 字段表格描述文档方案
- C语言随机数
- Chromium插件(Plugin)执行3D渲染的过程分析
- android ListView学习参考的BLOG
- 常用命令
- 利用FS寄存器获取KERNEL32.DLL基址算法的证明
- Atitit 贝叶斯算法的原理以及垃圾邮件分类的原理
- Atitti 文本分类 以及 垃圾邮件 判断原理 以及贝叶斯算法的应用解决方案
- Atitit机器学习原理与概论book attilax总结
- 自定义注解
- Atitit 基于meta的orm,提升加速数据库相关应用的开发
- Atian inputmethod 输入法解决方案 方言与多语言多文字支持 英语汉字汉语阿拉伯文的支持 (au
- 多线程同步Mutex
- centOS下安装JDK、Tomcat以及基本配置
- vs2008【断点无效】解决方法