Hadoop的分布式缓存
来源:互联网 发布:淘宝信誉评价表 编辑:程序博客网 时间:2024/06/06 06:35
一 背景
在执行MapReduce时,可能Mapper之间需要共享一些信息,如果信息量不大,可以将其从HDFS加载到内存中,这就是Hadoop分布式缓存机制。
二 分布式缓存的简单应用
例如,统计一个文本的单词在另外一个全量文本中是否存在,如果存在统计单词的数量,下面是Map阶段,将全量文本加载到分布式缓存中。
三 如何使用DistributedCathe
第1步:在main方法中加载共享文件的HDFS路径,路径可以是目录也可以是文件。可以在路径末尾追加“#”+别名,在Map阶段可以使用该别名。
编码如下:
第2步:在Mapper类或Reducer的setup方法中,用输入流获取分布式缓存中的文件。
编码如下:
四 补充
加载到内存发生在Job执行之前,每个从节点各自都缓存一份相同的共享数据。如果共享数据太大,可以将共享数据分批缓存,重复执行作业。
阅读全文
0 0
- Hadoop的分布式缓存
- Hadoop的分布式缓存DistributedCache使用方法
- hadoop 分布式缓存
- hadoop分布式缓存
- hadoop 分布式缓存
- Hadoop分布式缓存
- Hadoop分布式缓存
- Hadoop分布式缓存(DistributedCache)
- Hadoop分布式缓存(DistributedCache)
- <hadoop>分布式缓存
- windows配置hadoop遇到的问题(分布式缓存)
- hadoop中的分布式缓存——DistributedCache
- hadoop中的分布式缓存——DistributedCache
- 分布式缓存的使用
- 分布式缓存的心得
- memcache的分布式缓存
- Hadoop的分布式文件系统
- hadoop的分布式搭建
- python3 urllib 访问https网站
- ROIPoolingLayer源码解析
- 11.29作业
- &和&&的区别?
- 24点java代码
- Hadoop的分布式缓存
- node.js中的全局对象Buffer
- codesys runtime 修改默认串口映射关系
- Struts2运行原理
- 用标准IO把本地时间写入文件
- 使用pullToRefresh进行下拉刷新和上拉加载
- 虚拟网络接口bond
- iptables、netfilter
- python作用域