hadoop实战随笔_0717
来源:互联网 发布:mac mysql my.cnf 配置 编辑:程序博客网 时间:2024/06/03 22:59
Text
Text的长度定义为UTF-8编码的字节数。
Hadoop定义了两种数据类型以适应MapReduce变成框架的需要。这两种类型非常重要,其中map输出的中间结果就是由它们表示的。它们指的是SequenceFile和MapFile。其中,MapFile是经过排序并带有索引的SequenceFile类。
SequenceFile记录的是key/value对的列表,是序列化之后的二进制文件,因此是不能直接查看的,可以通过以下命令查看:
hadoop fs -text [你的SequenceFile文件]
Sequence有三种不同类型的结构:
记录压缩的key/value对(只有value被压缩)
block压缩的key/value对(key和value被分别记录到块中,并压缩)。
HDFS
在Hadoop中有一个综合性的文件系统抽象,它提供了文件系统事项实现的各类接口,HDFS只是这个抽象文件系统的一个实例。
HDFS局限:
1、不适合低延迟的数据访问
2、无法高效存储大量小文件
3、不支持多用户写入,只能在文件末尾追加内容
HDFS概念:
1、块(block)
操作系统中都有一个块的概念,文件以块的形式存储在磁盘中,此处块的大小指系统读取/写入可操作的最小文件的大小,即文件系统一次只能操作磁盘块整数倍大小的文件。
HDFS中的块是一个抽象概念,它比操作系统中所说的块要大得多。默认大小是64M。
HDFS分布式文件系统中的文件也被分成块进行存储,它是文件存储处理的逻辑单元。
阅读全文
0 0
- hadoop实战随笔_0717
- hadoop实战随笔_0712
- hadoop实战随笔_0713
- hadoop实战随笔_0714
- hadoop实战随笔_0715
- hadoop实战随笔_0716
- hadoop实战随笔_0718
- hadoop实战随笔_0719
- hadoop实战随笔_0720
- hadoop实战随笔_0721
- 机器学习实战随笔
- hadoop实战
- hadoop实战
- Hadoop实战
- Hadoop集群注意事项--随笔
- 随笔· Hadoop相关
- Hadoop学习随笔(一)
- Hadoop学习随笔
- 《Springboot极简教程》问题解决:Logging system failed to initialize using configuration from 'logback.xml '
- hibernate连接MySQL数据库小例子
- 《Spring Boot极简教程》第8章 Spring Boot集成Groovy,Grails开发
- 《Spring Boot极简教程》附录4 Java编程简史
- 《Spring Boot极简教程》附录3 编程简史
- hadoop实战随笔_0717
- 《Spring Boot极简教程》第8_章: Spring Boot集成Groovy混合Java开发
- 《Groovy极简教程》第1章 Groovy简介
- javascript创建对象
- 前端技术栈-不定期更新
- 《Groovy极简教程》第2章 Groovy基础数据类型
- objdump
- jieba分词,并去除所有标点
- 《Groovy极简教程》第3章 Groovy基本语法