hadoop下mahout bayes（贝叶斯）算法研究（1）

来源：互联网发布：mindmanager注册机mac 编辑：程序博客网时间：2024/05/22 14:29

1.算法简介

朴素贝叶斯分类是一种十分简单的分类算法，叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素，朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率哪个最大，就认为此待分类项属于哪个类别。

这二十个新闻组数据集合是收集大约20,000新闻组文档，均匀的分布在20个不同的集合。这20个新闻组集合采集最近流行的数据集合到文本程序中作为实验，根据机器学习技术。例如文本分类，文本聚集。我们将使用Mahout的Bayes Classifier创造一个模型，它将一个新文档分类到这20个新闻组集合范例演示

2.环境要求

hadoop已经开启

mahout已经安装

3.数据的准备

下载20news-bydate.tar.gz数据包并解压缩

http://people.csail.mit.edu/jrennie/20Newsgroups/20news-bydate.tar.gz

例如：我已经把数据包放在/root/bayes下了，所以以下的命令都是在这个目录下的

原以为这么20个文件是不可以一起输出的，但事实证明是可以的

4.算法流程

5.数据输入与输出准备过程

5.1生成input的数据

mahout org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups -p/root/bayes/20news-bydate-train -o /root/bayesoutput/train -a org.apache.mahout.vectorizer.DefaultAnalyzer -c UTF-8

5.2生成test的数据

mahout org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups -p/root/bayes/20news-bydate-test -o /root/bayesoutput/test -a org.apache.mahout.vectorizer.DefaultAnalyzer -c UTF-8