分布式文件系统HDFS
来源:互联网 发布:js ajax post传递参数 编辑:程序博客网 时间:2024/05/24 23:13
HDFS原理:
Namenode始终在内存中保存metedata,用于处理“读请求”
到有“写请求”到来时,namenode会首先写editlog到磁盘,即向edits文件中写日志,成功返回后,才会修改内存,并且向客户端返回
Hadoop会维护一个fsimage文件,也就是namenode中metedata的镜像,但是fsimage不会随时与namenode内存中的metedata保持一致,而是每隔一段时间通过合并edits文件来更新内容。Secondarynamenode就是用来合并fsimage和edits文件来更新NameNode的metedata的。
secondary namenode的工作流程:
secondary通知namenode切换edits文件
secondary从namenode获得fsimage和edits(通过http)
secondary将fsimage载入内存,然后开始合并edits
secondary将新的fsimage发回给namenode
namenode用新的fsimage替换旧的fsimage
什么时候checkpiont :
fs.checkpoint.period 指定两次checkpoint的最大时间间隔,默认3600秒。
fs.checkpoint.size 规定edits文件的最大值,一旦超过这个值则强制checkpoint,不管是否到达最大时间间隔。默认大小是64M。
DataNode:
提供真实文件数据的存储服务。
文件块(block):最基本的存储单位。对于文件内容而言,一个文件的长度大小是size,那么从文件的0偏移开始,按照固定的大小,顺序对文件进行划分并编号,划分好的每一个块称一个Block。HDFS默认Block大小是128MB,以一个256MB文件,共有256/128=2个Block.
不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间
Replication。多复本。默认是三个。
HDFS读过程:
初始化FileSystem,然后客户端(client)用FileSystem的open()函数打开文件
FileSystem用RPC调用元数据节点,得到文件的数据块信息,对于每一个数据块,元数据节点返回保存数据块的数据节点的地址。
FileSystem返回FSDataInputStream给客户端,用来读取数据,客户端调用stream的read()函数开始读取数据。
DFSInputStream连接保存此文件第一个数据块的最近的数据节点,data从数据节点读到客户端(client)
当此数据块读取完毕时,DFSInputStream关闭和此数据节点的连接,然后连接此文件下一个数据块的最近的数据节点。
当客户端读取完毕数据的时候,调用FSDataInputStream的close函数。
在读取数据的过程中,如果客户端在与数据节点通信出现错误,则尝试连接包含此数据块的下一个数据节点。
失败的数据节点将被记录,以后不再连接。
HDFS写过程:
初始化FileSystem,客户端调用create()来创建文件
FileSystem用RPC调用元数据节点,在文件系统的命名空间中创建一个新的文件,元数据节点首先确定文件原来不存在,并且客户端有创建文件的权限,然后创建新文件。
FileSystem返回DFSOutputStream,客户端用于写数据,客户端开始写入数据。
DFSOutputStream将数据分成块,写入data queue。data queue由Data Streamer读取,并通知元数据节点分配数据节点,用来存储数据块(每块默认复制3块)。分配的数据节点放在一个pipeline里。Data Streamer将数据块写入pipeline中的第一个数据节点。第一个数据节点将数据块发送给第二个数据节点。第二个数据节点将数据发送给第三个数据节点。
DFSOutputStream为发出去的数据块保存了ack queue,等待pipeline中的数据节点告知数据已经写入成功。
当客户端结束写入数据,则调用stream的close函数。此操作将所有的数据块写入pipeline中的数据节点,并等待ack queue返回成功。最后通知元数据节点写入完毕。
如果数据节点在写入的过程中失败,关闭pipeline,将ack queue中的数据块放入data queue的开始,当前的数据块在已经写入的数据节点中被元数据节点赋予新的标示,则错误节点重启后能够察觉其数据块是过时的,会被删除。失败的数据节点从pipeline中移除,另外的数据块则写入pipeline中的另外两个数据节点。元数据节点则被通知此数据块是复制块数不足,将来会再创建第三份备份。
分布式文件管理系统很多,hdfs只是其中一种。适用于一次写入多次查询的情况,不支持并发写情况,小文件不合适。
HDFS目录结构参考:
http://blog.csdn.net/opensure/article/details/51452058
http://blog.csdn.net/chndata/article/details/46003399 有详细的文件说明,性能调优
http://192.168.174.131:50070/dfshealth.html#tab-overview
http://192.168.174.131:8088/cluster/nodelabels
打开HDFS命令:
HDFS fs命令
-help [cmd] //显示命令的帮助信息
-ls(r) <path> //显示当前目录下所有文件
-du(s) <path> //显示目录中所有文件大小
-count[-q] <path> //显示目录中文件数量
-mv <src> <dst> //移动多个文件到目标目录
-cp <src> <dst> //复制多个文件到目标目录
-rm(r) //删除文件(夹)
-put <localsrc> <dst> //本地文件复制到hdfs
-copyFromLocal //同put
-moveFromLocal //从本地文件移动到hdfs
-get [-ignoreCrc] <src> <localdst> //复制文件到本地,可以忽略crc校验
-getmerge <src> <localdst> //将源目录中的所有文件排序合并到一个文件中
-cat <src> //在终端显示文件内容
-text <src> //在终端显示文件内容
-copyToLocal [-ignoreCrc] <src> <localdst> //复制到本地
-moveToLocal <src> <localdst>
-mkdir <path> //创建文件夹
-touchz <path> //创建一个空文件
方式一:使用shell命令
查看hdfs根目录:
hadoop fs -ls hdfs://主机名:端口号/
hadoop fs -ls /
备注:/是hdfs根目录
上传文件:
hadoop fs -put linux路径 hdfs路径
hadoop fs -copyFromLocal linux路径文件 /
查看文件内容:
hadoop fs -cat hdfs路径
下载文件:
hadoop fs -get hdfs上的路径 linux路径
命令比较简单,可以通过hadoop fs -help回车查看命令使用
添加执行权限:
hadoop fs -chomd a+x /in.log
去掉执行权限包括子文件子文件夹:
hadoop fs -chomd -R -x /wcout
同时改变所属组所属用户:
hadoop fs -chomd 所属用户:所属组 文件名
查看文件信息:
hadoop dfs -stat
方式二:
which hadoop
which hdfs
进入sbin
hdfs dfs -ls /
上传文件并核对大小,用网页查看HDFS:
hadoop fs -put /usr/local/jdk1.8.0_151 /jdk1.8
Block块大小,默认是64m?128m?根据官网上面建议大小是64M/128M/256M
大小通过修改hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value> <!--不修改,默认复本3个-->
</property>
<property>
<name>dfs.block.size</name>
<value>5242880</value>
</property>
</configuration>
HDFS的java接口:
public class HdfsTest { private FileSystem fs = null; public static void main(String[] args) throws IOException, URISyntaxException { FileSystem fs = FileSystem.get(new URI("hdfs://192.168.174.131:9000/"), new Configuration()); InputStream in = fs.open(new Path("/jdk1.8")); FileOutputStream out = new FileOutputStream(new File("c:/jdk123456")); IOUtils.copyBytes(in, out, 2048, true); } @Before public void init() throws IOException, URISyntaxException, InterruptedException { fs = FileSystem.get(new URI("hdfs://193.168.174.131:9000/"), new Configuration(), "root"); } @Test public void testDel() throws IllegalArgumentException, IOException { boolean flag = fs.delete(new Path("/words.txt"), true); System.out.println(flag); } @Test public void testMkdir() throws IllegalArgumentException, IOException { boolean flag = fs.mkdirs(new Path("/哈哈8888888")); System.out.println(flag); } @Test public void testUpload() throws IllegalArgumentException, IOException { FSDataOutputStream out = fs.create(new Path("/words.txt")); FileInputStream in = new FileInputStream(new File("c:/w.txt")); IOUtils.copyBytes(in, out, 2048, true); }}
RPC(远程过程调用协议):
实现跨语言,跨系统,不同进程之间方法调用,底层还是scoket
public interface Barty { public static final long versionID = 10010; public String sayHi(String name);}
public class RPCServer implements Barty { public static void main(String[] args) throws HadoopIllegalArgumentException, IOException { Server server = new RPC.Builder(new Configuration()) .setInstance(new RPCServer()) .setBindAddress("192.168.174.1")//windows地址 .setPort(9527) .setProtocol(Barty.class) .build(); server.start(); } @Override public String sayHi(String name) { return "HI~" + name; }}
public class RPCClient { public static void main(String[] args) throws IOException { Barty proxy = RPC.getProxy(Barty.class, 10010, new InetSocketAddress("192.168.174.1", 9527), new Configuration()); String sayHi = proxy.sayHi("tomcat"); System.out.println(sayHi); }}
server 运行在win上,在IDEA上直接运行
在linux上运行client:java -jar RPCClient.jar
源码分析:
FileSystem get方法获取CACHE.get(uri, conf)→getInternal(uri, conf, key)private FileSystem getInternal(URI uri, Configuration conf, FileSystem.Cache.Key key) throws IOException { FileSystem fs; synchronized(this) { fs = (FileSystem)this.map.get(key);//懒汉模式,线程不安全,需要使用同步 }.....FileSystem.createFileSystem(uri, conf)→getFileSystemClass(uri.getScheme(), conf);public static Class<? extends FileSystem> getFileSystemClass(String scheme, Configuration conf) throws IOException { if (!FILE_SYSTEMS_LOADED) { loadFileSystems();//记载到SERVICE_FILE_SYSTEMS } LOGGER.debug("Looking for FS supporting {}", scheme); Class<? extends FileSystem> clazz = null; if (conf != null) {//conf从core-site.xml core-default.xml hdfs-default.xml hdfs-site.xml中取 String property = "fs." + scheme + ".impl";//fs.hdfs.impl LOGGER.debug("looking for configuration option {}", property); clazz = conf.getClass(property, (Class)null);//自己配置fs.hdfs.impl,这里才不为空} else { LOGGER.debug("No configuration: skipping check for fs.{}.impl", scheme); } if (clazz == null) { LOGGER.debug("Looking in service filesystems for implementation class"); clazz = (Class)SERVICE_FILE_SYSTEMS.get(scheme); .......回到createFileSystem利用反射得到实例对象,但是有些属性还没有初始化,需要→fs.initialize(uri, conf);看源码需要看有返回值的,某个值是在哪里new的DistributedFileSysteminitialize(URI uri, Configuration conf)主要new DFSClient..先静态属性代码块,然后构造方法,NameNodeProxy各种Policy策略
完成FileSystem创建补充:
hdfs-default.xml 配置block
读取默认配置文件信息core-default.xml在hadoop-common-3.0.0-beta1.jar下面
- HDFS-hadoop分布式文件系统
- 分布式文件系统HDFS
- Hadoop HDFS分布式文件系统
- 分布式文件系统HDFS设计
- 分布式文件系统HDFS
- 分布式文件系统HDFS简介
- HDFS--Hadoop分布式文件系统
- HDFS--Hadoop分布式文件系统
- 2、 分布式文件系统HDFS
- HDFS分布式文件系统常用命令
- HDFS分布式文件系统常用命令
- 分布式文件系统与HDFS
- 分布式文件系统HDFS 之一
- hdfs:Hadoop分布式文件系统
- 初识HDFS分布式文件系统
- 分布式文件系统HDFS解读
- HDFS【Hadoop分布式文件系统】
- HDFS分布式文件系统
- 2-3查找树与红黑树
- 51单片机实验2017年11月20日
- c++ 11 random库的简单用法
- Ubuntu下安装STM32调试环境 OpenOCD+JLink
- python的装饰器 就是闭包
- 分布式文件系统HDFS
- linux实用命令积累
- VariCAD 2018中文免费版下载附安装教程
- for in 遍历json
- HDU 1727 Hastiness(模拟)
- javaSwing图像用户界面
- elasticsearch重要概念理解
- 一些Linux命令简要笔记——Linux编程
- 登录注册那些事儿(一)