创建托管的Hadoop集群

来源:互联网 发布:维氏刀具在淘宝上买 编辑:程序博客网 时间:2024/06/07 03:33

AWS = Amazon Web Services

2014年 AWS入驻中国

AWS中国区域成为亚太第四个,全球第10个区域。

AWS中国区域提供的服务和其他区域基本一样,但是中国区域使用了独立的中国区域用户账户体系。

服务:

(1)Elastic Compute Cloud(EC2)

(2)Simple Storage Serviecs(S3)

(3)Elastic MapReduce(EMR)


1.Elastic Compute Cloud(EC2)

-2006年8月25日发布

-弹性云服务器

-虚拟主机

-多种操作系统

-负载均衡

-静态IP地址

-安全防护


2.Simple Storage Serviecs(S3)

-2006年3月14日发布

-提供简单键值存储服务

-桶(存储数据的容器),每个桶都有一个唯一的标识符,桶中的对象都是唯一命名的

-单文件最大体积5TB


3.Elastic MapReduce(EMR)

-2009年4月2日发布

-(是建立在EC2和S3上的云端Hadoop)

-支持多种接口:网页控制台、命令行、API(通过这些接口,用户可以设置Hadoop工作流的部分属性,比如要用到的Hadoop的主机数、源数据的存储位置等属性)

-集群配置简单

-支持多种开发语言:Java、Python、Ruby等

-经典模式(源数据和结果都存储在S3的桶中:EMR从S3的桶中获取源数据,利用基于EC2创建的Hadoop集群来处理这些数据,最后将结果返回到S3的数据桶中)


使用AWS集群服务,用户不用担心节点调配、集群配置、Hadoop配置、集群调试等,亚马逊会自动服务。


操作示例:

-创建AWS账号

-注册EC2、D3、EMR等必须的服务

-登录AWS管理控制台

-创建源数据桶(数据桶的名称 和 源数据的物理服务器的位置)

-创建Hadoop集群并运行

-创建作业流


0 0
原创粉丝点击