BIEE工具连接大数据技术
来源:互联网 发布:海迅软件 编辑:程序博客网 时间:2024/05/16 15:10
我们利用Java语言编写MapReduce程序,然后用Apache Hadoop生态圈的其他工具将它们结合起来,这在技术上是相当复杂的。一种名为Hive的工具在Hadoop和MapReduce上提供类SQL查询层,使得像OBIEE这样的工具可以访问到它们。这样比你亲自用JAVA语言编写自己的MapReduce程序复杂度要低得多。 Hive已经为你写好了,通过ODBC和JDBC驱动器返回数据到OBIEE和ODI。下图展示了这种机制构建的数据层:
基于上图,Hive拥有它自己的元数据层、服务器引擎和数据存储,开发者加载到Hive表中的数据其实存储在HDFS文件系统中,就像MapReduce处理任何其他数据一样。当通过Hive发起查询,Hive服务器动态生成MapReduce程序去查询底层数据,以一种类似于交互式数据库SQL会话的形式返回数据给用户,比如:
markmacbookpro:~ markrittman$ sshoracle@bigdataliteoracle@bigdatalite's password:Last login: Wed Apr 17 04:02:592013 from192.168.2.200==========================================================================================================Welcometo BigDataLiterun startx at the command line for X-Windowsconsole==========================================================================================================
Host: bigdatalite.us.oracle.com[192.168.2.35]
[oracle@bigdatalite~]$hiveHive historyfile=/tmp/oracle/hive_job_log_oracle_201304170403_1991392312.txt
hive> showtables;OKdwh_customerdwh_customer_tmpi_dwh_customerratingssrc_customersrc_sales_personweblogweblog_preprocessedweblog_sessionizedTimetaken: 2.925 seconds
hive> select count(*) fromsrc_customer;Total MapReduce jobs = 1Launching Job 1 out of 1Number of reducetasks determined at compile time: 1In order to change the average load for areducer (in bytes):set hive.exec.reducers.bytes.per.reducer=In order to limitthe maximum number of reducers:set hive.exec.reducers.max=In order to set aconstant number of reducers:set mapred.reduce.tasks=Starting Job =job_201303171815_0003, Tracking URL =http://localhost.localdomain:50030/jobdetails.jsp?jobid=job_201303171815_0003KillCommand=/usr/lib/hadoop-0.20/bin/Hadoop job-Dmapred.job.tracker=localhost.localdomain:8021 -killjob_201303171815_00032013-04-17 04:06:59,867 Stage-1 map = 0%, reduce =0%2013-04-17 04:07:03,926 Stage-1 map = 100%, reduce = 0%2013-04-1704:07:14,040 Stage-1 map = 100%, reduce = 33%2013-04-17 04:07:15,049 Stage-1map = 100%, reduce = 100%Ended Job = job_201303171815_0003OK25Time taken: 22.21seconds
hive>
在上例中,我们连接到Hive环境,列出我可用的“表”,后台运行src_customers表中的“行”计数,引起MapReduce进程在后台Hive服务器中写入和执行。Hive被称为“Hdoop数据仓库”,但它不是你我熟知的数据仓库——例如你通常不会用Hadoop和Hive去存储顾客交易数据,但你可能会用它存储Facebook网的交互数据,或者你网站的最受欢迎的页面或者常用访问路径,同时网站分析的工作人员倾向于用一种更友好的方式进行交互式数据查询而不是他们自己编写Java程序的方式。因此OBIEE如何访问这数据,你在原来的基础上需要哪些额外的软件或者配置块来实现呢?
如果你想OBIEE11g访问Hadoop数据,最好用11.1.1.7以上版本,因为它是测试得最多和最稳定的版本。需要对驱动器进行两点配置:一是在服务器级(Hadoop访问只支持OBIEE 11.1.1.7的Linux服务器设备),二是基于Windows管理工具级。基于《11.1.1.7 Metadata Repository Builder'sGuide》手册,我们先从BI Administration tool开始。
为了让BIAdministration tool连接Hadoop/Hive数据源,需要通过Oracle支持网站(My Oracle Support)下载文档标识为DocID 1520733.1的 Hadoop 的ODBC驱动。它提供了一套Hive ODBC驱动和PDF文档解释安装过程,一旦安装了驱动后,需要打开ODBC数据源管理程序,创建一个新的HiveODBC数据源。在本实例中,对服务器名后面命名数据源为"bihdatalite",其他项保持默认值。注意"default"是"database"在Hive中的名称,端口号是Hive服务器运行的端口。
现在创建一个新的离线资料库,连接到Hive服务器,通过HiveODBC连接导入表的元数据到RPD中。注意连接当前的展现形式,同时可以导入多个Hive数据库中的表到RPD中。发起的查询不能跨Hive数据库(例如,不能给表名指定一个前缀schema名,因此不能关联两个schema)。
导入Hive表元数据到RPD中后,更改物理数据库类型为"Apache Hadoop",从元数据导入过程自动添加了的默认的ODBC3.5设置。保留连接池调用接口ODBC2.0,在共享登陆信息中输入任意以前的用户名和密码(或者有效的用户名/密码,如果Hive安全是激活状态),保存资料库。
现在你可以在BIAdministration tool中用”View Data ”查看Hive表的数据,如下:
现在跳转到OBIEE的服务器部分,配置ODBC连接到Hive。OBIEE 11.1.1.7附带的DataDirect驱动是已经安装了的且能连接到Hive,因此,以下是通过配置OBIEE的 odbi.ini文件连接相同名称的HIVE数据源案例。
[ODBC DataSources]AnalyticsWeb=Oracle BI ServerCluster=Oracle BI ServerSSL_Sample=OracleBI Serverbigdatalite=Oracle 7.1 Apache Hive Wire Protocol
[bigdatalite]Driver=/u01/app/Middleware/Oracle_BI1/common/ODBC/Merant/7.0.1/lib/ARhive27.soDescription=Oracle7.1 Apache Hive WireProtocolArraySize=16384Database=defaultDefaultLongDataBuffLen=1024EnableLongDataBuffLen=1024EnableDescribeParam=0Hostname=bigdataliteLoginTimeout=30MaxVarcharSize=2000PortNumber=10000RemoveColumnQualifiers=0StringDescribeType=12TransactionMode=0UseCurrentSchema=0
注意用DataDirect7.1驱动配置OBIEE的OPMN特征,而不是默认的以前的驱动。对于RPD而言,只需要基于Hive表源建立业务模型,用EM上传,使其在线运行在你安装好的OBIEE服务器设备上,最后你的RPD类似于下图:
最后,就像任何其他数据源的分析一样,你可以基于这些数据建立OBIEE分析,除去在查询开始的时候有大量的滞后和延迟,因为,Hive会在它的java环境中运转,写入MapReduce查询,然后发送回数据到OBIEE的BI Server中。
如何获取数据到Hive,在后台创建这些表,通过Hadoop和 MapReduce访问?下次我们介绍Oracle数据集成中间件如何用于加载数据到Hive,正如用Hadoop或者其他大数据技术执行数据集成任务一样。
- BIEE工具连接大数据技术
- 10款超好用的工具助力大数据与分析技术
- 10款超好用的工具助力大数据与分析技术
- 开源BI工具Pentaho 连接hive进行大数据分析
- GIS+=地理信息+大数据技术——GIS大数据可视化分析工具
- BIEE-4、数据联邦
- 大数据工具了解
- 大数据,大开源工具
- 大数据工具集合
- 大数据相关工具
- 大数据分析工具
- 大数据工具
- 大数据工具/框架
- 大数据工具/框架
- 大数据开发工具
- 大数据技术综述
- 大数据技术体系
- 大数据技术
- IOS-单例模式
- NSJSONSerialization用法
- 怎么运用好MindMapper中的格式刷
- Android之SurfaceView的基本使用
- Home 欢迎加盟 关于我们 热门文章 搜索技术博客-淘宝关注技术 关注搜索 关注淘宝 graph database 性能优化 搜索引擎 前端技术 数据挖掘 导购搜索 搜索动态 分布式技术 其他 28
- BIEE工具连接大数据技术
- 如何选择自动化测试框架
- web页面实现框选效果
- Flash不同wmode属性分析
- iOS 的 APP 如何适应 iPhone 5s/6/6Plus 三种屏幕的尺寸?
- Linux 删除某个文件之外的所有其它文件
- Lesson 16 Mary had a little lamb
- linux下mysql之修改密码或者创建新用户
- mysql 性能分析及explain用法