HBase0.94在flush操作时候的一个漏洞
来源:互联网 发布:上海软件开发公司排名 编辑:程序博客网 时间:2024/04/30 22:11
基于HBase0.94版本,在高并发写操作时,运行时偶尔出现丢失数据的情况,查看了HBase的日志,出现一下信息,
WARN org.apache.hadoop.hbase.regionserver.MemStore: Snapshot called again without clearing previous. Doing nothing. Another ongoing flush or did we fail last attempt?
这个问题是HBase在flush操作时的一个bug,HBase JIRA中有对应的patch,HBASE-7671(Flushing memstore again after last failure could cause data loss)
下面对出现这个问题的原因分析一下,
我们知道HBase在memstore达到一定阈值时会进行flush操作,flush主要包括三个过程,snapshot,flush cache,commit
snapshot是对memstore中的内存对象进行快照,在快照过程中需要阻塞write操作,snapshot完成后,重置内存中的对象。
flush cache过程基于snapshot生成tmp HFile,同时在HFile中的元数据中保存seqNum,这个seqNum是基于HLog的当前region最后完成的seqNum(写数据的HLog key value 对会带上seqNum)。
commit提交flush,把storeFile加入到Store中,并清除memstore snapshot(此时判断是否需要进行compact操作)(调用Store.updateStorefiles,会对store的lock加写锁,这样其他的写数据的操作就会堵塞<读锁>);最后会向WAL确认完成本次的flush操作,把该seqNum写入到HLog中,这样表示小于该seqNum的操作都已经持久化到HFile中了,下次恢复从该位置恢复即可,便于Hlog的relay操作。
这个问题在于先前的flush cache过程因异常而snapshot未清理,后续flush在snapshot的过程中,发现当前memstore中存在snaoshot,那么就不再做snapshot了,该snapshot是基于先前的flush操作的,这样就会存在丢失后面flush的那部分数据(因最后给WAL确认的seqNum还是后面flush的那个seqNum,但实际是对先前的snapshot做操作)。
所以解决思路是在snapshot的开始的时候,若存在snapshot,则把该snapshot也加入到当前需要flush的内存区域中。
- HBase0.94在flush操作时候的一个漏洞
- IO操作的时候,不要忽视flush
- 关于HBase0.94版本在split region后META Scanner和CatalogJanitor并发操作时存在的问题
- 【python】对文件操作flush的一个理解
- mysql的flush logs操作
- 分页操作时候遇到的一个问题
- 只在行情好的时候操作
- springMVC整合hibernate的时候数据插入需要flush问题
- FileOutputStream flush操作时有时无效的解决办法
- Hibernate一级缓存操作flush的作用
- 在Hadoop2.2的HA环境下配置Hbase0.96
- HTML5一个标志性的漏洞在今年被发现!
- onethink如何在新增时一条数据的时候运行一个函数或进行某数据库的操作
- tomcat的一个漏洞
- LocalStorage 的一个漏洞
- 如何在一个窗体关闭的时候,返回一个字符串
- Java在操作数组的时候常出现的异常
- 在Apex里面操作数据的时候的异常处理
- Java面试宝典之数据结构基础 —— 线性表篇
- ecshop根本解决 IIS5 + PHP The specified module could not
- Ajax工作原理
- Array之sort
- scheme let
- HBase0.94在flush操作时候的一个漏洞
- Gearman协议
- Redhat Linux搭建CVS服务
- mongoDB重启失败,提示error number 100
- oracle 实用查询
- jdk----jvm----jre
- 如何让div层覆盖Flash
- mysql 误操作通过日志数据恢复
- 【Apache Storm系列之一】Storm介绍