基于Hadoop实现通用的并行任务处理
来源:互联网 发布:中国根域名服务器在哪 编辑:程序博客网 时间:2024/05/02 02:23
利用Hadoop云技术框架实现通用的并行任务处理功能,将原本只是单机程序改造成最终运行在Hadoop云平台里。
l 优点:
1. 分布并行运行
基于MapReduce及dfs(分布式文件系统)实现了分布并行运行,可实现一个
NoSplitInputFormat类用于支持单个Map任务运行。
2. 出错自动重试
Hadoop框架具备可配置的出错任务自动重试功能,配置参数为:
mapred.map.max.attempts。
3. 可保留原始输入重复运行以用于调试
当尝试手动再次运行或调试上一个任务时,Hadoop提供的IsolationRunner可
实现保留原始输入本地再次执行的功能。相应配置参数为:
keep.task.files.pattern。
4. 网页端运行状态实时监控,比如可以实时动态显示处理进度
可实现CustomerProcess类,通过调用TaskReporter的setProgress方法实现
网页端进度条控制,可在Map任务的setup里启用一个心跳任务执行
CustomerProcess功能。
5. 方便的网页端日志查询
Hadoop强大的网页监控功能可提供日志的实时收集。
6. Hadoop框架其它的优点,如大数据量存储及处理
利用大集群,大存储实现单机可能没法完成的任务。
l 缺点:
1. 只能直接处理来自dfs上的文件
由于任务的分布式运行特征,数据只能预先存储在dfs上,当然也可以利用
Hadoop的fuse-dfs模块实现dfs上的数据映射到本地文件系统。如调用oracle的
sqlldr工具加载数据时,可采取这种形式,从而避免数据由dfs转移至本地文件系
统这一过程。
注:由于fuse-dfs自身的的限制,有些任务可能没法这样实现,特别是牵涉到
写文件功能时,如解压缩功能等。
2. 不能直接支持对文件的随机写功能
由于某些dfs本身的限制无法提供输出流的随机写功能(api上直接没有提供
seek 功能),对于需要经常改写较大文件的内容时,这时就没有比较直接的处理方
式了。
l 注意事项:
1. 要注意利用Hadoop DistributedCache技术实现依赖包和配置的分布
由于任务的分布运行特性,为了保证产品的易维护性,可以将产品所依赖的jar
包和配置文件分发到dfs上。Hadoop框架分别提供了:
DistributedCache.addFileToClassPath,可用于分发jar包
DistributedCache.addArchiveToClassPath,可用于分发配置文件。
2. 利用序列化将参数传入每一个map任务
由于Map任务是以单独的进程运行,在传入参数时应采用Hadoop提供的序列
化功能实现有可能跨机器不同进程间的参数传入。Hadoop框架分别提供了:
DefaultStringifier.store,可用于序列化
DefaultStringifier.load,可用于反序列化
3. 利用持久化将返回参数传出
在Map任务返回参数时也应采用序列化的方式将参数序列化至dfs上存储。
4. 应仔细设计传入参数
在设计传入给每一个Map任务的参数时应仔细斟酌。比如设计FTP下载功能时,应采取如下策略:同时执行多个Map任务实现多个文件同时下载,而不是同时执行多个Hadoop Job,或是在一个Map任务里多线程运行。具体实现可利用Hadoop 的InputFormat.getSplits自行实现可控的支持并发运行多个Map任务的功能。
5. 开发调试时可以让Hadoop 以Local方式运行
在做开发调试时,为避免多机器分布运行带来的调试不便,可通过设置如下参
数以支持Hadoop任务单机单进程运行:
fs.default.name为file:///
mapred.job.tracker为local
- 基于Hadoop实现通用的并行任务处理
- 基于Hadoop的分布并行加法的实现
- 基于Hadoop的分布并行加法的实现
- PHP5实现多任务并行处理
- hadoop lzo文件的并行map处理
- 基于Spring打造简单高效通用的异步任务处理系统
- 基于Spring打造简单高效通用的异步任务处理系统
- 基于GPU的数字图像并行处理研究
- PHP使用QPM实现多进程并行任务处理程序
- PHP 使用 QPM 实现多进程并行任务处理程序
- bat多任务并行处理
- bat多任务并行处理
- 基于Hadoop平台的并行数据挖掘算法工具-Dodo
- 基于Hadoop平台的并行数据挖掘算法工具-Dodo
- 通用的搜索引擎优化实现任务
- 使用 Rx 的计算和最大化线程处理并行任务
- Hadoop多Job并行处理
- Hadoop集群lzo文件的并行map处理
- vs2008数据库编程笔记
- 有点无言
- c++ primer学习之1
- C++编程杂谈之四:漫谈UML
- Windows编译OpenVPN客户端
- 基于Hadoop实现通用的并行任务处理
- euqals和hashcode
- 建了一个新博客
- 建了一个新博客
- linux内核函数kernel_thread
- TinyXml 使用举例
- Spring总结-AOP
- matlab中plot用法
- ConnectionPool.java