开源SQL in Hadoop解决方案:我们处于什么位置?
来源:互联网 发布:波兰黄金列车 知乎 编辑:程序博客网 时间:2024/05/22 10:49
转贴地址:http://www.infoq.com/cn/news/2013/12/open-source-sql-hadoop-solutions
随着Facebook开源了最近发布的Presto,已经非常拥挤的SQL in Hadoop市场变得更加错综复杂。一些开源工具正在努力获得开发者的注意:Hortonworks 围绕着Hive创建的Stinger、Apache Drill、Apache Tajo、Cloudera的Impala、Salesforce的Phoenix(用于HBase)以及现在的Facebook Presto。
已经在产品环境中使用Hadoop的组织需要交互式的SQL查询支持,同时能够与已有的BI工具进行平滑的集成。来自于eBay的Vijay Madhavan在他的博客Hadoop场景中的SQL一文中声称:
现在大部分基于Map-Reduce的分析系统能够在非交互式和批量SLA领域良好地工作,包括当前版本的Hive、Pig、Cascading。许多产品正在努力通过提供交互式“SQL in Hadoop”解决方案支持实时交互式SLA。
SQL in Hadoop解决方案的用例包括支持交互式ad-hoc查询;支持使用MicroStrategy 或者Tableau 这样的BI系统进行报表/可视化;支持多来源(multi-source)数据,例如HDFS中的行为型数据必须被连接到RDBMS或者其他来源中的人口统计数据。很多这样的SQL in Hadoop解决方案在某些方面有共同点:
在元数据层面上,好像HCatalog/Hive Metastore将它们自己制定成了跨不同数据源管理模式事实上(de-facto)的标准。
然后有某些数据格式,例如Parquet和ORC,它们对于选择的工作负载而言正在变得越来越流行,同时在自然环境中使用的也越来越广泛。
大部分解决方案好像都支持各种各样的ANSI SQL(不同的版本:1992、1999、2003)。
上面几点可以帮助用户在不同的SQL in Hadoop解决方案之间迁移,不会有很多令人头痛的问题。但是也有一些值得注意的区别,如下所示:
- 解决方案中的一部分是由Apache支持的,同时也伴随着社区的支持(Stinger、Drill、Tajo);其他的则是由单独的实体组织拥有(Impala、Phoenix、Presto)。
- 另外,有一部分解决方案在数据源方面有一些限制,它们能够查询Hadoop生态系统;而另一些从架构的角度看更加灵活,可以查询关系型数据库和NoSQL数据存储(Presto、Drill)。
- 另一点是允许在数据上执行的操作不同:有一些是纯(分布式)查询引擎,而另一些则允许执行更新操作。
查看英文原文:Open Source SQL-in-Hadoop Solutions: Where Are We?
- 开源SQL in Hadoop解决方案:我们处于什么位置?
- SEO网站优化在企业中应该处于什么位置?
- [android基础知识] 之十九: JNI究竟处于什么位置?
- 我们应该把底层理论摆什么位置?
- Hadoop处于风雨飘摇中
- sql中用什么替代in
- hadoop的一系列子项目能为我们做什么?
- Linux现在处于什么地位?
- Linux现在处于什么地位?
- Linux现在处于什么地位?
- 你正在处于什么模式?
- 当我们建站的时候,问问自己为什么要建设这个网站?有什么收益么?处于什么样子的目的?
- myEclipse一直处于Redeploy解决方案
- 什么情况下我们应该放弃SQL Server虚拟化
- 当我们谈 SQL 优化时在谈些什么?
- 我们还是处于网站制作的初级阶段
- oracle sql执行计划存储在什么位置?
- 为什么我们不要使用nolock in SQL Server
- oc学习之旅:NSString3
- Android学习笔记之反编译工具介绍及下载(Class文件反编译,xml文件反编译整理)
- MesaSQLite数据库简单使用
- 界面换肤技术
- SQL SERVER 08 监视及常用系统表
- 开源SQL in Hadoop解决方案:我们处于什么位置?
- rtsp 协议学习
- android短信发送
- iOS开发利器DCIntrospect
- 软工总结
- ubuntu下配置静态IP地址,设置DNS和主机名
- Erlang ets表
- 黑马程序员_多线程
- 嵌入式 shell相关经典解释如变量以及赋值和特殊符号