hadoop的IO相关总结

来源:互联网 发布:自学编程的视频网站 编辑:程序博客网 时间:2024/06/08 01:22

最近这段时间继续了解和消化hadoop相关知识点(源码),那么关于hadoop的IO大致总结几个内容,然后一个个了解相关源码处理。


第一:数据检查CRC-32循环冗余校验

   在三种情况下进行校验:datanode接收数据后,存储数据前;客户端读取datanode上的数据时;datanode后台守护进程的定期检测

第二:数据压缩(Gzip、bzip2和LZO),分割的处理

第三:序列化处理机制

第四:MapReduce的文件类 SequenceFile MapFile