mahout简介及安装配置
来源:互联网 发布:origin软件百度云 编辑:程序博客网 时间:2024/05/23 18:04
一. mahout简介:
Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类、聚类等。Mahout最大的优点就是基于Hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能。
以下为在mahout实现的机器学习算法:
算法类
算法名
中文名
分类算法
Logistic Regression
逻辑回归
Bayesian
贝叶斯
SVM
支持向量机
Perceptron
感知器算法
Neural Network
神经网络
Random Forests
随机森林
Restricted Boltzmann Machines
有限波尔兹曼机
聚类算法
Canopy Clustering
Canopy聚类
K-means Clustering
K均值算法
Fuzzy K-means
模糊K均值
Expectation Maximization
EM聚类(期望最大化聚类)
Mean Shift Clustering
均值漂移聚类
Hierarchical Clustering
层次聚类
Dirichlet Process Clustering
狄里克雷过程聚类
Latent Dirichlet Allocation
LDA聚类
Spectral Clustering
谱聚类
关联规则挖掘
Parallel FP Growth Algorithm
并行FP Growth算法
回归
Locally Weighted Linear Regression
局部加权线性回归
降维/维约简
Singular Value Decomposition
奇异值分解
Principal Components Analysis
主成分分析
Independent Component Analysis
独立成分分析
Gaussian Discriminative Analysis
高斯判别分析
进化算法
并行化了Watchmaker框架
推荐/协同过滤
Non-distributed recommenders
Taste(UserCF, ItemCF, SlopeOne)
Distributed Recommenders
ItemCF
向量相似度计算
RowSimilarityJob
计算列间相似度
VectorDistanceJob
计算向量间距离
非Map-Reduce算法
Hidden Markov Models
隐马尔科夫模型
集合方法扩展
Collections
扩展了Java的Collections类
二. Mahout安装、配置
1. 下载Mahout
http://archive.apache.org/dist/mahout/
2. 解压
tar -zxvf mahout-distribution-0.9.tar.gz
3. 配置环境变量
3.1、配置Mahout环境变量
# set mahout environment
export MAHOUT_HOME=/home/slshop/mahout/mahout-distribution-0.9
export PATH=$MAHOUT_HOME/conf:$MAHOUT_HOME/bin:$PATH
3.2、配置Mahout所需的Hadoop环境变量
# set hadoop environment
export HADOOP_HOME=/home/slshop/hadoop/hadoop-2.7.2
export PATH=$PATH:$HADOOP_HOME/bin
4. 验证Mahout是否安装成功: 执行命令mahout。若列出一些算法,则成功
三. 使用Mahout之入门级使用
1. 启动Hadoop
2.下载测试数据 http://archive.ics.uci.edu/ml/databases/synthetic_control/ 链接中的synthetic_control.data
3.上传测试数据 hadoop fs -putsynthetic_control.data /user/root/testdata
4. 使用Mahout中的kmeans聚类算法,执行命令:mahout -core org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
5 查看聚类结果: 执行hadoop fs -ls /user/root/output
- mahout简介及安装配置
- Mahout学习之Mahout简介、安装、配置、程序测试
- Mahout学习之Mahout简介、安装、配置、入门程序测试
- Mahout学习之Mahout简介、安装、配置、入门程序测试
- Mahout学习之Mahout简介、安装、配置、入门程序测试
- Mahout学习之Mahout简介、安装、配置、入门程序测试
- Mahout学习之Mahout简介、安装、配置、入门程序测试
- Mahout学习之Mahout简介、安装、配置、入门程序测试
- Mahout学习之Mahout简介、安装、配置、入门程序测试
- Mahout学习之Mahout简介、安装、配置、入门程序测试
- Mahout学习之Mahout简介、安装、配置、入门程序测试
- Mahout学习之Mahout简介、安装、配置、入门程序测试
- Mahout学习之Mahout简介、安装、配置、入门程序测试
- Mahout学习之Mahout简介、安装、配置、入门程序测试
- Ubuntu10.04下Mahout安装及配置
- Mahout 安装配置及一个简单测试
- Mahout安装及测试
- mahout 安装 配置 测试
- OCI-22053: 溢出错误的原因和解决方法
- SQLite.swift —— 实例教程(增删查改)Swift 3
- Android5.0 共享元素 实现不同页面的同一个View的切换效果
- input输入框自动填充的黄色背景简单办法
- DHCP 接口以及全局配置
- mahout简介及安装配置
- 1.5enum枚举类型
- Java HashMap原理和结构
- 进程(即虚拟机)、应用(包括application和各种组件)、task和back stack
- word 参考文献的引用
- VC ++实现 对文件的 隐藏, 只读 ,创建时间 , 最后修改时间 ,最后访问时间 属性的修改
- 软件测试-页面转码测试用例
- java方法客户端下载服务器上的文件到本地
- 两个平级div顶部不对齐问题