MR-5.MapReduce分布式缓存(Distribute Cache)

来源:互联网 发布:刚开淘宝店铺卖什么好 编辑:程序博客网 时间:2024/05/17 07:15

DistributeCache是Hadoop的分布式文件缓存类,是一个提供给Map/Reduce框架的工具,用来缓存文件(文件,归档,jars等),DistributeCache将拷贝缓存的文件到slaves节点在任何job在节点上执行之前,每个存储在HDFS中的文件被放到缓存后都可以通过一个符号链接使用。

 

通过该类主要可以完成两方面的事情

(1)       完成分布式文件共享

(2)       MR的Join操作,将小表放入cache中,可提高效率

0 0
原创粉丝点击