MapReduce的input为SequenceFile的相关实验
来源:互联网 发布:微店和淘宝哪个安全 编辑:程序博客网 时间:2024/05/01 05:53
书接上文:解决小文件多的另外一个办法是使用SequenceFile。
实验一:用Java code把指定文件夹下的所有小文件打包成SequenceFile
代码如下:
执行完该java 程序后,hdfs上面生成了SequenceFile: /sfile/sfile.seq
我们可以用命令"hadoop dfs -text /sfile/sfile.seq" 以text file的格式(而非二进制格式)查看该sequencefile 的内容 。
实验二:用Java code读取SequenceFile内容
代码如下:
执行该java 程序后便可以把SequenceFile里面的内容挨条读出。
实验三:用SequenceFile当作MapReduce Job的输入
需要说明的是:在MR job里面需要指定对应的FileInputFormat,比如“conf.setInputFormat(SequenceFileAsTextInputFormat.class)”。
执行完后,虽然SequenceFile里面包含了很多的小文件,但是可以看到Job启动的Map数量只有2——这样也验证了SequenceFile可以较好地解决小文件过多的问题。
简单总结一下:通过使用SequenceFile不仅可以减少NameNode的压力,同样也可以来减少map的数量。不过,它的代价是:需要花工夫创建该SequenceFile。
0 0
- MapReduce的input为SequenceFile的相关实验
- MapReduce的input为包含小文件的zip压缩文件的相关实验
- MapReduce的input为小文件和har文件的相关实验
- MapReduce的inputformat为CombineFileInputFormat的相关实验
- mapreduce 编程SequenceFile类的使用
- type为text的input标签的相关事件对比
- [Linux Input]BITS_TO_LONGS的解释及相关为操作函数
- [Linux Input]BITS_TO_LONGS的解释及相关为操作函数
- mapreduce作业接受序列化文件(SequenceFile)作为文件输入的WordCount程序
- MapReduce读取sequencefile文件
- Hadoop的SequenceFile文件<转>
- Hadoop中SequenceFile的使用
- Hadoop 中SequenceFile的简介
- 一种SequenceFile的格式研究
- Mapreduce框架的相关问题
- MapReduce中的SequenceFile和MapFile
- Spark上对SequenceFile的支持
- HDFS之SequenceFile的读写操作
- 字符串按词典分割
- 快速部署zabbix监控服务器
- Why so many Python web frameworks
- hadoop作业引用第三方jar文件
- oracle locks query
- MapReduce的input为SequenceFile的相关实验
- 如何获取客户端真实IP地址
- 更新了android sdk出现aapt问题以及模拟器启动错误
- [职场]14年辞旧迎新
- mysql中的show profiles在5.6.14版本被丢弃
- Split 获取字符串中指定符号分割的字符内容
- 论文写作之不二法则
- mysql中将ip转换为数值的函数
- oa数据库rman备份