开源代码Hadoop NFS connector (链接分享)

来源:互联网 发布:义乌淘宝村 编辑:程序博客网 时间:2024/06/11 14:13

Hadoop 本身有自己的文件系统HDFS,传统的做法是数据保存到Hadoop Cluster的HDFS系统,然后再做数据分析。

在很多实际应用,数据往往分布在各种各样的存储系统或者文件系统,比如亚马孙公有云AWS的S3,Linux EXT3,Window的NTFS等等。

NFS 是网络文件系统,是一种分布式文件系统协议,很好地解决了网络间的文件共享问题,被广泛使用,具体介绍参见 https://en.wikipedia.org/wiki/Network_File_System。

如果Hadoop想分析从其他文件系统传过来的数据流,由于该文件系统不被hadoop支持,所以需要先把数据存放到HDFS,然后再做数据分析。而如果Hadoop支持该文件系统,则可以直接从该文件系统取数据,然后做数据分析,少了一个从某文件系统copy到HDFS的过程,提高了效率。

Hadoop NFS connector 主要由NetApp 公司开发的, 源代码链接为https://github.com/NetApp/NetApp-Hadoop-NFS-Connector

Hadoop可以通过添加NFS connector,  使得Hadoop支持各种各样的文件系统访问,只要该文件系统支持NFS协议。


0 0
原创粉丝点击