HBase性能优化方法总结(四):数据计算
来源:互联网 发布:盘点数据管理制度 编辑:程序博客网 时间:2024/04/29 19:47
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。
下面是本文总结的第四部分内容:数据计算相关的优化方法。
4. 数据计算4.1 服务端计算Coprocessor运行于HBase RegionServer服务端,各个Regions保持对与其相关的coprocessor实现类的引用,coprocessor类可以通过RegionServer上classpath中的本地jar或HDFS的classloader进行加载。
目前,已提供有几种coprocessor:
4.2 写端计算4.2.1 计数HBase本身可以看作是一个可以水平扩展的Key-Value存储系统,但是其本身的计算能力有限(Coprocessor可以提供一定的服务端计算),因此,使用HBase时,往往需要从写端或者读端进行计算,然后将最终的计算结果返回给调用者。举两个简单的例子:
5. 总结作为一个Key-Value存储系统,HBase并不是万能的,它有自己独特的地方。因此,基于它来做应用时,我们往往需要从多方面进行优化改进 (表设计、读表操作、写表操作、数据计算等),有时甚至还需要从系统级对HBase进行配置调优,更甚至可以对HBase本身进行优化。这属于不同的层次 范畴。
总之,概括来讲,对系统进行优化时,首先定位到影响你的程序运行性能的瓶颈之处,然后有的放矢进行针对行的优化。如果优化后满足你的期望,那么就可以停止优化;否则继续寻找新的瓶颈之处,开始新的优化,直到满足性能要求。
下面是本文总结的第四部分内容:数据计算相关的优化方法。
4. 数据计算4.1 服务端计算Coprocessor运行于HBase RegionServer服务端,各个Regions保持对与其相关的coprocessor实现类的引用,coprocessor类可以通过RegionServer上classpath中的本地jar或HDFS的classloader进行加载。
目前,已提供有几种coprocessor:
- Coprocessor:提供对于region管理的钩子,例如region的open/close/split/flush/compact等;
- RegionObserver:提供用于从客户端监控表相关操作的钩子,例如表的get/put/scan/delete等;
- Endpoint:提供可以在region上执行任意函数的命令触发器。一个使用例子是RegionServer端的列聚合,这里有代码示例。
4.2 写端计算4.2.1 计数HBase本身可以看作是一个可以水平扩展的Key-Value存储系统,但是其本身的计算能力有限(Coprocessor可以提供一定的服务端计算),因此,使用HBase时,往往需要从写端或者读端进行计算,然后将最终的计算结果返回给调用者。举两个简单的例子:
- PV计算:通过在HBase写端内存中,累加计数,维护PV值的更新,同时为了做到持久化,定期(如1秒)将PV计算结果同步到HBase中,这样查询端最多会有1秒钟的延迟,能看到秒级延迟的PV结果。
- 分钟PV计算:与上面提到的PV计算方法相结合,每分钟将当前的累计PV值,按照rowkey + minute作为新的rowkey写入HBase中,然后在查询端通过scan得到当天各个分钟以前的累计PV值,然后顺次将前后两分钟的累计PV值相 减,就得到了当前一分钟内的PV值,从而最终也就得到当天各个分钟内的PV值。
- 如果内存可以容纳,那么可以在Hash表中维护所有已经存在的UV标识,每当新来一个标识时,通过快速查找Hash确定是否是一个新的UV,若是 则UV值加1,否则UV值不变。另外,为了做到持久化或提供给查询接口使用,可以定期(如1秒)将UV计算结果同步到HBase中。
- 如果内存不能容纳,可以考虑采用Bloom Filter来实现,从而尽可能的减少内存的占用情况。除了UV的计算外,判断URL是否存在也是个典型的应用场景。
5. 总结作为一个Key-Value存储系统,HBase并不是万能的,它有自己独特的地方。因此,基于它来做应用时,我们往往需要从多方面进行优化改进 (表设计、读表操作、写表操作、数据计算等),有时甚至还需要从系统级对HBase进行配置调优,更甚至可以对HBase本身进行优化。这属于不同的层次 范畴。
总之,概括来讲,对系统进行优化时,首先定位到影响你的程序运行性能的瓶颈之处,然后有的放矢进行针对行的优化。如果优化后满足你的期望,那么就可以停止优化;否则继续寻找新的瓶颈之处,开始新的优化,直到满足性能要求。
0 0
- HBase性能优化方法总结(四):数据计算
- HBase性能优化方法总结(四):数据计算
- HBase性能优化方法总结
- HBase性能优化方法总结
- HBase性能优化方法总结
- HBase性能优化方法总结
- HBase性能优化方法总结
- HBase性能优化方法总结
- HBase性能优化方法总结
- HBase性能优化方法总结
- HBase性能优化方法总结
- HBase性能优化方法总结
- HBase性能优化方法总结
- HBase性能优化方法总结
- HBase性能优化方法总结
- HBase性能优化方法总结
- HBase性能优化方法总结
- HBase性能优化方法总结
- 算法(第四版)学习笔记之java实现选择排序
- 常用Hbase Shell
- java数组--04
- SQL行转列(case when then )
- Class 'Mews\Captcha\CaptchaServiceProvider' not found
- HBase性能优化方法总结(四):数据计算
- GRE写作必备句型
- sql 联合查询
- iOS适配iPhone5s,6 ,6p
- [Android] ImageView.ScaleType设置图解
- HBase性能优化方法总结(一):表的设计
- ThinkPhp 学习之模型
- 关于STL中的map和hash_map
- HBase性能优化方法总结(二):写表操作