ETL架构师面试题(中文)

来源:互联网 发布:怎样打造淘宝爆款 编辑:程序博客网 时间:2024/05/18 06:37

本部分的题目来自Kimball的ETL Toolkit著作,原著未直接给出答案。这里的中文题目和答案是我参考其原著按自己的理解整理而来的,仅供参考。对于其中不确切的地方,欢迎大家一起沟通。有兴趣的朋友可以直接阅读原著。

  分析

  1.什么是逻辑数据映射?它对ETL项目组的作用是什么?

  2.在数据仓库项目中,数据探索阶段的主要目的是什么?

  3.如何确定起始来源数据?

  架构

  4.在ETL过程中四个基本的过程分别是什么?

  5.在数据准备区中允许使用的数据结构有哪些?各有什么优缺点?

  6.简述ETL过程中哪个步骤应该出于安全的考虑将数据写到磁盘上?

  抽取

  7.简述异构数据源中的数据抽取技术。

  8.从ERP源系统中抽取数据最好的方法是什么?

  9.简述直接连接数据库和使用ODBC连接数据库进行通讯的优缺点。

  10.简述出三种变化数据捕获技术及其优缺点。

  数据质量

  11.数据质量检查的四大类是什么?为每类提供一种实现技术。

  12.简述应该在ETL的哪个步骤来实现概况分析?

  13.ETL项目中的数据质量部分核心的交付物有那些?

  14.如何来量化数据仓库中的数据质量?

  建立映射

  15.什么是代理键?简述代理键替换管道如何工作。

  16.为什么在ETL的过程中需要对日期进行特殊处理?

  17.简述对一致性维度的三种基本的交付步骤。

  18.简述三种基本事实表,并说明ETL的过程中如何处理它们。

  19.简述桥接表是如何将维度表和事实表进行关联的?

  20.迟到的数据对事实表和维度表有什么影响?怎样来处理这个问题?

  元数据

  21.举例说明各种ETL过程中的元数据。

  22.简述获取操作型元数据的方法。

  23.简述共享业务元数据和技术元数据的方法。

  优化/操作

  24.简述数据仓库中的表的基本类型,以及为了保证引用完整性该以什么样的顺序对它们进行加载。

  25.简述ETL技术支持工作的四个级别的特点。

  26.如果ETL进程运行较慢,需要分哪几步去找到ETL系统的瓶颈问题。

  27.简述如何评估大型ETL数据加载时间。

  实时ETL

  28.简述在架构实时ETL时的可以选择的架构部件。

  29.简述几种不同的实时ETL实现方法以及它们的适用范围。 

 30.简述实时ETL的一些难点及其实现方法。

0 0