关于hadoop使用lzo压缩的流程
来源:互联网 发布:根河教育网络办公平台 编辑:程序博客网 时间:2024/06/05 09:54
1.为何要使用lzo
看这里,http://blog.cloudera.com/blog/2009/11/hadoop-at-twitter-part-1-splittable-lzo-compression/
中文的也很多,搜索一下吧
2.安装流程(仅限linux centos 5.7通过)
为编译hadoop的lzo准备的库
curl -O http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gztar zxvf lzo-2.06.tar.gzcd lzo-2.06./configure --enable-sharedmakemake install#64位cp /usr/local/lib/liblzo2* /usr/lib64/#32位cp /usr/local/lib/liblzo2* /usr/lib/
#64位
cp /usr/local/lib/liblzo2* /usr/lib64/
#32位
cp /usr/local/lib/liblzo2* /usr/lib/
有问题可安装rpm包
wget http://apt.sw.be/redhat/el5/en/x86_64/rpmforge/RPMS/lzo-devel-2.06-1.el5.rf.x86_64.rpm
wget http://apt.sw.be/redhat/el5/en/x86_64/rpmforge/RPMS/lzo-2.06-1.el5.rf.x86_64.rpm
rpm -ivh lzo-2.06-1.el5.rf.x86_64.rpm
rpm -ivh lzo-devel-2.06-1.el5.rf.x86_64.rpm
3.安装 hadoop-lzo
#来源https://github.com/twitter/hadoop-lzo/
部分网来上提供的是https://github.com/kevinweil/hadoop-lzo,这个是老版本的
wget https://github.com/twitter/hadoop-lzo/archive/master.zipunzip master#更新hadoop-lzo中的pom.xml<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <hadoop.current.version>2.2.0</hadoop.current.version> <hadoop.old.version>1.0.4</hadoop.old.version> </properties>export CFLAGS=-m64export CXXFLAGS=-m64mvn clean package -Dmaven.test.skip=truecd target/native/Linux-amd64-64tar -cBf - -C lib . | tar -xBvf - -C ./cp ./libgplcompression* /opt/modules/hadoop/lib/native/cp target/hadoop-lzo-0.4.20-SNAPSHOT.jar /opt/modules/hadoop/share/hadoop/common/
(这一步很重要的,拷贝到<span style="font-family: Arial, Helvetica, sans-serif;">hadoop/lib下,我这里是不能发现该jar的</span>)
4.更新配置
core-site.xml
5.lzo文件的处理,创建索引
hadoop jar /path/to/hadoop-lzo.jar com.hadoop.compression.lzo.LzoIndexer /lzo_logs
6.mapreduce的变化
一般的jar包,使用的是新接口,用LzoTextInputFormat代替TextInputFormat即可
stream方式的mapreduce增加参数 -inputformat com.hadoop.mapred.DeprecatedLzoTextInputFormat
7.其他,参考源码readme:
https://github.com/twitter/hadoop-lzo/
8.本地支持lzo文件
#安装lzop-1.03.tar.gz
tar zxvf lzop-1.03.tar.gz
cd lzop-1.03
./configure
make
make install
- 关于hadoop使用lzo压缩的流程
- 关于hadoop使用LZO压缩模式有感
- hadoop中使用lzo的压缩
- hadoop中使用lzo的压缩
- Hadoop如何使用Lzo压缩
- hadoop中使用lzo压缩
- 个人关于hadoop使用LZO压缩主要步骤以及带来的后续问题和解决办法
- Hadoop 的lzo压缩尝试
- Hadoop集群上使用Lzo压缩
- Hadoop集群上使用Lzo压缩
- Hadoop集群上使用Lzo压缩
- hadoop lzo压缩
- Hadoop启用Lzo压缩
- hadoop中使用lzo压缩格式支持笔记
- Hadoop使用lzo压缩提升I/O性能
- hadoop, hive 启用LZO压缩
- 脱离Hadoop的环境下使用Lzo
- 开启hadoop和Hbase集群的lzo压缩功能
- fl2440的U-boot-2010.09移植(七)LCD的支持
- 实习生编写程序必备
- Android AVD相关
- Linux查看用户的7个命令
- 输入字符串,找出相同且长度最长的子字符串,输出
- 关于hadoop使用lzo压缩的流程
- Codeforces Round #FF (Div. 2)C - DZY Loves Sequences
- Andorid4.x 流氓式屏蔽HOME键
- EC2常用命令
- js中Switch 中default 的用法
- Ubuntu中Nginx 开机自启动
- 【POJ】2367 Genealogical tree 拓扑排序
- Swift编程语言学习4.3—— 控制语句
- derby数据库常见操作汇总