Hadoop-HDFS Basic
来源:互联网 发布:南京财经大学网络教育 编辑:程序博客网 时间:2024/06/15 08:04
基本概念
源于Google的GFS论文。
数据是采用块管理,Hadoop1.x中默认大小是64M,Hadoop2.x中大小默认为128M。
块变大为了最小化寻址开销,也就是让文件传输时间明显大于块的寻址时间,还有就是减轻NameNode的负担,因为在NameNode中存储块所在数据节点的信息,太小的块会占用过多内存。但是也不能过于大,因为MapReducer中一般一个map处理一个块上的数据,如果块很大,任务数会很少(少于集群中的节点个数)这样执行效率会明显降低。
优缺点
优势:
- 高容错性
- 适合批处理
- 适合大数据处理
- 流式数据访问
- 可构建在廉价机器上
缺点:
- 不适用小文件存取
节点内存有限,可存储的block数目有限;小文件消耗大量寻道时间 - 无法做到并发写、文件随机修改
- 无法做到低延迟
相对以文件存储的分布式系统,以block为单位存储的HDFS有什么优势?
- 高容错性
- 方便负载均衡
基本结构
主从结构
主:NameNode(HA-High Availability-热备份:Active/Standby)
- Active NameNode :
管理HDFS的名称空间
管理数据块映射信息
配置副本策略
处理客户端读写请求 - Standby NameNode
NameNode的热备,当Active NameNode出现故障时,快速切换为新的 ActiveNameNode
定期合并fsimage和fsedits,推送给NameNode
- Active NameNode :
从:DataNode
- Slave(有多个)
- 存储实际的数据块
默认块大小128M
默认副本3-数学推导;副本防止策略: - 执⾏行数据块读/写
读写流程!!
Cient:
- 文件切分
- 与NameNode交互,获取文件位置信息
- 与DataNode交互,读取或者写入数据
- 管理HDFS
- 访问HDFS
程序及访问方式
HDFS命令
#最好先配置HADOOP_HOME环境变量,否则必须在相应目录下才能运行指令hdfs dfs -ls / #查看文件hdfs dfs -rmr /hdfs/datahdfs dfs -mkdir /hdfs/datahdfs dfsadminhdfs fsck /tmp/xx.txt -files -blocks -locations #查看文件状况
Java API
可以在本地运行Java程序修改远程主机的hdfs,但是要配置好:
1.在resouces目录下将节点的core-site.xml文件拷贝过来
2.在本机hosts文件中配置Linux5的域名解析,否则还是无法识别
3.更改hdfs下/tmp目录的权限,否则提示权限不足无法新建目录!
但是mapreduce不能本地连接,必须打成jar包推到机器上
优化技巧
文本文件
SequenceFile: flume收集的格式
列式存储格式:ORC Parquet
小文件合并为大文件
压缩
纠删码(3.0引进)
增大热点文件的副本数
冷数据的处理
阅读全文
0 0
- Hadoop-HDFS Basic
- Hadoop HDFS
- hadoop hdfs
- hadoop hdfs
- hadoop hdfs
- Hadoop-HDFS
- Hadoop HDFS
- Hadoop - HDFS
- hadoop HDFS
- Hadoop-hdfs
- hadoop---hdfs
- Hadoop-HDFS
- Hadoop-HDFS
- Hadoop-HDFS
- Hadoop HDFS
- Hadoop--HDFS
- Hadoop ---- HDFS
- Hadoop(HDFS)
- Java之系统剪贴板WindowUtils包-yellowcong
- jquery, json与ashx的完美结合
- javascript中对json数据的处理
- ashx文件结合ajax使用(返回json数据)
- OCUpload、pinyin4j、poi简单入门
- Hadoop-HDFS Basic
- 某创业成长公司实习能力总结
- es6常用知识总结
- luogu2952 [USACO09OPEN]牛线Cow Line
- 10.2晚 模拟继续
- 阿里云ecs 专有网络 IIS发布FTP远程不能连接解决办法
- 面向对象六大原则之里氏替换原则
- NEW START
- Hibernate初学者---Junit 测试String类型返回值