hbase时间戳踩坑小记
来源:互联网 发布:淘宝店铺经营 编辑:程序博客网 时间:2024/04/29 17:29
大家知道,像OB,HBase这种存储系统,插入数据的时候,一般数据上都会有一个时间戳(ts)。
Hbase有一个TTL(time to live),可以标识数据的有效期,比如,可以把TTL设置成86400*1000,也就是说数据将于1天后过期。这是一个表级的设置,必须在建表时指定。
但是如果说你需要存储某一天内的数据,到第二天0点失效。这种情况TTL是没法控制的,因为TTL只能控制数据在一段时间后失效,而不能控制在特定的时间点失效。
TTL的本质是通过对比数据的ts,与当前系统时间,然后确定是否应该失效,于是,我们可以通过ts来hack一下。
假设数据的TTL是1天,如果我在凌晨1点插入数据,那么正常情况,它会到第二天凌晨1点失效。实际上就是判断:currentMilliseconds - ts > 86400*1000,如果满足,数据就失效了。
这时如果要控制数据在第二天0点就失效,我们把插入数据的ts往后推一小时就可以了,它就会提前失效。
这个方案理论上看起来没有问题,但是如果你的表涉及到删除数据,那么,坑就来了。
HBase普通的操作,都会写入WAL(Write ahead log),累积到一定数量后(或者根据时间),根据操作的ts,进行merge,然后对真实的数据做commit,这个跟数据库的log是有点类似的。
这里面隐含的一点是,hbase中的操作,是需要ts比当前数据中的ts大,操作才会有效,否则就无效(正常的都是这样的,因为时间是不断变大的嘛)。
比如当前有2个操作:
put 'key', 'value', ts=1
put 'key', 'value', ts=2
那么经过合并后,实际上只会有一个操作:
put 'key', 'value', ts=2(因为这个时间戳比较大嘛)
接着来,如果有3个操作:
put 'key', 'value', ts=1
put 'key', 'value', ts=2
del 'key', 'value', ts=3
那么,合并后,就只有delete的操作了。
坑就在这里,因为我们是手动设置插入数据的ts的。这就意味着,如果要删除数据,那必须要将删除操作的ts设置得比原来的数据的ts要大(在我们的情况中,两个时间都是未来)。
如果删除操作,使用了系统默认的ts,那么造成的结果是:数据无法被删除。
OK,那我们就知道,会将删除的ts设大。可是这时,如果你再插入数据,就必须将插入数据的ts设置得比删除操作的ts还要大。。。其实就是,对同一个cell的操作,要想你的操作有效,你必须将它的ts设置为比当前操作序列中最大的还要大。。。
然后,如果一不小心,你想当然地把删除的ts设置成了Long.MAX_VALUE,你就会发现,你永远也插入不了数据了。。。。(其实不是永远啦,要到下一次major compact)。
最后的总结:谨慎修改数据的ts。。。
- hbase时间戳踩坑小记
- Hbase安装小记
- hbase读写优化小记
- HBase shell命令小记
- Hbase学习小记
- hbase零碎小记
- HBase 线上问题分析小记
- HBase 线上问题分析小记
- Hbase 的 htablepool的小记录
- HBase中的时间维度
- HBase中的时间维度
- HBase中的时间维度
- perl对时间处理小记
- C#的时间转换小记
- sqlite时间的使用方法小记
- oracle,java时间格式小记
- 小记——linux时间
- Hbase 各regionServer 时间不一致
- Java学习总结之IO
- 电驴提示“该内容尚未提供权利证明,无法提供下载”之解决办法详解
- linux查看线程的命令
- LeetCode | Remove Element
- js中join()的用法
- hbase时间戳踩坑小记
- MATLAB:dispatcher:loadLibrary Can't reload '* \bin\win64\libmwmathlinalg.dll'(*代表MATLAB安装路径)
- App 调试的几个命令实践
- 我喜欢秋天
- LINUX常用命令
- java hashCode方法
- Cracking the coding interview--问题与解答
- 6.基于ZMQ的游戏网络层基础架构
- js对字符串进行编码方法总结