Hadoop默认支持集成OSS，作为Hadoop兼容的文件系统

来源：互联网发布：通用顶级域名有哪些编辑：程序博客网时间：2024/06/08 08:35

背景

2017.12.13日Apache Hadoop3.0.0正式版本发布，默认支持阿里云OSS对象存储系统，作为Hadoop兼容的文件系统。

OSS是中国云计算厂商第一个也是目前唯一一个被Hadoop官方版本支持的云存储系统。这是继Docker支持阿里云存储以后，又一个更重大的里程碑。这也是主流开源社区对中国的技术生态，对中国云计算行业发展成果的认可。

这意味着全球用户在使用Hadoop这一开源软件时，都可以无缝连接阿里云的OSS对象存储文件系统。Hadoop生态的离线、交互、数据仓库、深度学习等程序，可以在不需要改代码的情况下，自由读写OSS的对象存储。

用户只需要简单的配置，就可以在Hadoop应用中使用OSS。下面举例介绍如何在Hadoop3.0中，使用OSS。

如何使用

Hadoop集群搭建

首先，我们需要搭建Hadoop集群，搭建步骤如下，具体可参考官方文档。如已经创建Hadoop集群，则可跳过。

配置hostname

配置各个机器的hostname，这个用户可以自由选择自己喜欢的名称。对于集群规模不大的情况，可以使用master, slave01, slave02…修改完成之后，可以使用hostname命令判断是否执行成功

修改/etc/hosts

修改各个机器上/etc/hosts文件, 在各个节点上打开文件：vim /etc/hosts
在文件最后添加如下内容，注意下面的IP地址要替换为实际环境的局域网IP地址, 例如:

SSH免密登录

Hadoop集群需要机器之间实现ssh直连，既不需要密码。实现方式通过将各个机器上的密钥（~/.ssh/id_rsa.pub）分到给对方机器的~/.ssh/authorized_keys文件中去

安装Java(所有节点)

下载JDK(以jdk1.8.0_15为例), 解压至/usr/lib/(以安装至该目录为例)
修改环境变量, 打开文件 vim ~/.bashrc

使配置生效 : source ~/.bashrc
验证配置是否生效 :
执行命令java -version，返回正确版本。

集群安装配置

可以参考Hadoop Cluster Setup进行Hadoop集群安装配置

阿里云OSS支持

Hadoop集群搭建好之后，为了能使Hadoop读写阿里云OSS，只需要修改极少的配置文件即可。

core_site.xml配置修改

$HADOOP_HOME/etc/hadoop/core_site.xml文件的配置内容，须增加的配置如下:
在configuration标签中加入如下内容：
注意把fs.oss.endpoint、fs.oss.accessKeyId、fs.oss.accessKeySecret属性对应的的值设置为您自己的OSS Bucket的Endpoint和AK内容。

hadoop-env.sh配置修改

打开文件： vim $HADOOP_HOME/etc/hadoop/hadoop-env.sh
在相应位置增加如下内容：

修改完成之后，重启Hadoop集群。

Hadoop读写OSS验证

完成上面的设置后，就可以在Hadoop中读写OSS了，享受到OSS的海量、弹性、自动扩容伸缩等优势。为了测试Hadoop能否从OSS读写文件，可以做如下的测试：

OSS计算生态展望

在Hadoop中使用OSS，也符合存储计算分离的发展趋势，能使计算业务启停、数据规模和计算节点的扩容伸缩更灵活，用户也不用为了保存数据，而运维HDFS集群。

OSS依托高性能的阿里云数据中心网络，并与丰富的开源、阿里云自研的计算系统集成，为客户提供方便，简单，和经济划算的数据分析和加工能力。比如：

OSS是中国第一家被官方Hadoop社区接纳为缺省的对象存储文件系统；
开源的分布式内存文件系统Alluxio原生支持OSS；
阿里云E-MapReduce的Hadoop组件可直接使用OSS作为存储后端进行数据存取，使用EMR服务，更方便地构建和管理基于OSS的Hadoop、Spark、Hive等大数据应用集群；
阿里云的MaxCompute通过阿里云内部Tb级的网络通道，对OSS的数据进行分析和加工;
阿里云的BatchCompute平台，为基因计算、动画渲染等行业客户，提供数千个计算节点级别的并发数据分析和加工能力，大大提升业务效率;
阿里云的机器学习平台PAI，和OSS联通，广泛应用在用户画像、气象分析、识图训练等机器学习业务中；
并行处理数据仓库服务HybridDB等产品也都和OSS存储联通;

OSS不仅是“存储”，而且正在成为共享的数据湖，一份数据被多种计算系统共享，达到存储与计算解耦的效果，使得资源的利用率最大化。OSS会持续与社区、以及Intel等合作伙伴，共同推进OSS与Hadoop开源计算系统的结合。同时，OSS也会持续与阿里云计算产品(如EMR、PAI等)的融合和优化，帮助用户更方便地搭建计算应用，进行数据的分析和加工。

-END-

云栖社区

ID：yunqiinsight

云计算丨互联网架构丨大数据丨机器学习丨运维

阅读全文

0 0

Hadoop默认支持集成OSS，作为Hadoop兼容的文件系统

Hadoop默认支持集成OSS，作为Hadoop兼容的文件系统

Hadoop支持的多种文件系统URI格式

hadoop文件系统的读取

hadoop 的HDFS文件系统

Hadoop的分布式文件系统

Hadoop文件系统的操作

hadoop的文件系统

不仅是HDFS，Hadoop支持多种文件系统

Hadoop文件系统支持释疑之S3

hadoop支持的数据类型

hadoop 支持的数据类型

hadoop支持的数据类型

hadoop 文件系统

Hadoop文件系统

hadoop的文件系统一致模型

hadoop HDFS文件系统的特征

hadoop HDFS文件系统的特征

关于红帽RHCE考试的那些事儿

linux QT因修改系统时间或迁移项目后，重新编译提示某某文件修改时间大于当前时间，或新修改的代码不能正确编译。

首都机场率先引入阿里云ET航空大脑，每天调度1700架次航班节省5000个小时

开发必看！阿里云API精选手册来了--100+ 阿里云自有产品与云生态API精选！

《2017中国开发者调查报告》即将发布！你看那个人，好像一个程序员哦！

Hadoop默认支持集成OSS，作为Hadoop兼容的文件系统

开blog记录，咩哈哈

种地也要输给人工智能了阿里云联手隆平高科训练ET

阿里智能运维平台如何助力研发应对双11挑战

android客户端学习-RelativeLayout布局动态在四个角的位置增加标签

USART概述

阿里1682亿背后的协同研发云——云效公共云正式商业化

AI在双11中的个性化搜索和决策实践

从头了解Gradient Boosting算法