【转载】IBM ETL面试题目

来源:互联网 发布:unity 源码分析 编辑:程序博客网 时间:2024/06/05 00:53

1.JOIN和LOOKUP的区别?

这个简单,区别在于

1)使用的缓存方式,JOIN是先内存,后磁盘,LOOKUP全放到内存中进行查找,

2)默认的数据分区是不一样的JOIN是ROUND ROBIN,LOOKUP是ENTRY.

3)使用的场景也不一样,JOIN用于数据量大的时候进行查找,LOOKUP只有在内存宽松的情况下进行查找.

4)数据查找失败的方式也不一样.LOOKUP有REJECT LINK,JOIN 没(主要看是什么JOIN).

2.sequence file 和dataset的区别?

这个问题也很简单,区别在于:

1)sequence file用于平面的字符文件,是串行读取的,dataset是Datastage FRAMEWORK的内部使用格式,是按照APT_CONFIG_FILE中的节点进行分区压缩存放.
2)sequence file可被外部程序读取,dataset是内部格式,只允许Datastage进行相关的读取.

3.fileset的使用:
fileset 是用于文件集的,可以进行相关的并行读取,但最大读取的文件为2G(这个有待考证,因为我也不太记得了)

4.APD_CONFILE_FILE的编写.
根据相关的模板,设置FASTNAME,POOL,SCRATCH,SORT DISK就OK.

5.如果在Datastage中配置ODBC.
1)在Datastage 安装目录下有个uvconfig,在里面按照模板进行选项的配置.
2)在工程目录下的ODBC.INI文件加入相关的连接就OK.

6.分区
回答几个Datastage的数据分区就OK了.一共8个左右..

7.调优
基于分区的调优,主要是分区的利用和瓶颈的分析.

8.Datastage的相关启动
要针对Datastage的安装方式,ROOT用户直接用ROOT用户可以进行启动,指定管理员方式的安装需要用指定管理用户进行启动.

9.BASH的相关提问

10.ORACLE的相关提问.

11.LINUX的权限设置.

面试一共持续了47分钟,结束的时候刚好15:00.很郁闷,DATASTAGE问了40多分钟,英语却5分钟不到.这次如果想要进外企,真的要好好纪下口语了.

总的来说,面试我觉得还算是可以的,接下来就看IBM的人怎么看我的情况了.希望我能打上一个IBM的标识..也是我工作中的一个长足的进步吧.希望….希望….希望着……期待着……..

原创粉丝点击