01 机器学习算法库Mahout mahout概念和支持的算法库

来源:互联网 发布:带着空间去民国淘宝 编辑:程序博客网 时间:2024/04/30 13:11

1 研究mahout之前要想给mahout定位好,他是hadoop生态圈里做机器学习的子系统,提供了多种数据挖掘的算法。

      数据挖掘是从海量数据中挖掘出有用的商业价值,如客户分类,新闻分类等。挖掘类型分为,聚类,分类,预测,关联。4种类型的挖掘任务。数据挖掘的过程 原始数据 --》 抽取特征向量  --》  训练模型 -》评估模型 -》 最终模型。
      mahout是spark提供的用于数据挖掘的机器学习算法库。mahout在数据挖掘中,充当  训练模型 -》评估模型 -》 最终模型。后3个过程的角色。

2 mahout应用场景
    mahout实现了数据挖掘领域的4种挖掘类型的多个算法,研究mahout的应用场景,相当于研究对应的算法类型的作用。

    聚类算法
    聚类算法,把一堆数据集分为几类。是一种无学习集(无监督)的学习过程。可以用以电信行业中挖掘优质客户。游戏行业中寻找即将流失的玩家。信用卡行业中信用卡诈骗。等等的聚类需求。

    分类算法
    分类算法是,根据已打好标签的学习集,将没有打标签的数据集打上标签(判断是否属于这个类型)的分类过程,是一种有学习集(有监督)的学习过程。可以用于垃圾邮箱(短信)的辨别,新闻(文本)分类,评论自动化分类。

    协同过滤算法
    协同过滤,是根据用户和商品的历史数据为用户做推荐得分最高的商品的学习过程,是基于用户和商品的一个推荐模型的训练过程。用于电商的推荐系统。淘宝的买过该商品的用户还买过哪些商品,看过该商品的用户还看过哪些商品。

    关联算法
    关联算法,是根据历史的购买记录,计算相关商品之间的关联度的学习过程。用于寻找哪些商品经常同时被购买,如京东最佳套餐,亚马逊的最佳组合。


3 mahout支持的算法类型和算法
算法类算法名中文名分类算法Logistic Regression逻辑回归Bayesian贝叶斯SVM支持向量机Perceptron感知器算法Neural Network神经网络Random Forests随机森林Restricted Boltzmann Machines有限波尔兹曼机聚类算法Canopy ClusteringCanopy聚类K-means ClusteringK均值算法Fuzzy K-means模糊K均值Expectation MaximizationEM聚类(期望最大化聚类)Mean Shift Clustering均值漂移聚类Hierarchical Clustering层次聚类Dirichlet Process Clustering狄里克雷过程聚类Latent Dirichlet AllocationLDA聚类Spectral Clustering谱聚类关联规则挖掘Parallel FP Growth Algorithm并行FP Growth算法回归Locally Weighted Linear Regression局部加权线性回归降维/维约简Singular Value Decomposition奇异值分解Principal Components Analysis主成分分析Independent Component Analysis独立成分分析Gaussian Discriminative Analysis高斯判别分析进化算法并行化了Watchmaker框架 推荐/协同过滤Non-distributed recommendersTaste(UserCF, ItemCF, SlopeOne)Distributed RecommendersItemCF向量相似度计算RowSimilarityJob计算列间相似度VectorDistanceJob计算向量间距离非Map-Reduce算法Hidden Markov Models隐马尔科夫模型集合方法扩展Collections扩展了java的Collections类
(表格原文地址:http://blog.sina.com.cn/s/blog_6a67b5c50100wpkp.html)
0 0
原创粉丝点击