1.1分布式学习流程

来源:互联网 发布:网络用语cdz什么意思 编辑:程序博客网 时间:2024/05/09 20:10

由于本人最近在学习分布式,故把自己从Hadoop-Nutch-Spark-hive搭建过程做为笔记记录下与大家学习交流

一:分布式搭建流程

1.1Hadoop

Hadoop原本来自于谷歌一款名为MapReduce的编程模型包。Hadoop最初只与网页索引有关,开始的时候是 Nutch 的一个子项目,迅速发展成为分析大数据的领先平台。

1.2 HBase

Hbase的名字的来源是Hadoop database,即hadoop数据库,HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

1.3 Mahout

Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。

1.4 Spark

Spark使用Scala语言,启用内存分布式数据集。与Hadoop相似,但Hadoop使用MR语言,Spark更容易编写和实现,

二:分布式学习图谱




0 0