2.5 利用HCatalog管理元数据

来源：互联网发布：达梦数据库公司编辑：程序博客网时间：2024/05/05 05:11

转： http://book.2cto.com/201408/45864.html

在HDFS和HBase之间，Hadoop提供了许多保存数据的方法，使得数据可以被多个应用程序访问。但将数据集中存储并提供给多个应用程序访问，这样做产生了一系列新的挑战，包括以下几点：

如何分享数据，才能够使数据以用户想要的任何形式来保存和处理？

如何能够将不同的Hadoop应用程序和其他系统集成？

访问数据的常见方法之一是通过表抽象，该方法通常用于访问关系型数据库，并且为许多开发者所熟知(和广泛采用)。一些流行的Hadoop系统，例如Hive和Pig，也采用了这种方法。这种抽象解除了数据如何存储(HDFS文件、HBase表)与应用程序如何处理数据(表格式)之间的耦合。此外，它允许从较大的数据语料库中“过滤”感兴趣的数据。

为支持这种抽象，Hive以关系型数据库的形式提供了元存储，这允许我们捕获实际物理文件(和HBase表)与用于访问该数据的表(虚拟的)之间的依赖关系。

Hive和Pig

传统上，数据保存在数据库中，SQL是提供给数据工作者的主要接口。

Hadoop的数据仓库系统——Hive，旨在为这些数据工作者简化Hadoop的使用，它提供了HiveQL——一种类似SQL的语言，用于访问和操作基于Hadoop且保存在HDFS和HBase中的数据。通过将请求透明地转换为MapReduce执行，HiveQL支持专有的查询、连接、摘要等。其结果是，Hive查询不是实时执行，而是作为批量任务执行。

Pig是另外一个Hadoop数据仓库系统，与类SQL的语言不同，它使用Pig的专用脚本语言——Pig Latin。Pig Latin将数据视为一个元组集合(字段的有序集合)，允许将输入元组转换为输出。类似于Hive，Pig支持专有的查询、连接和其他操作，且将Pig Latin代码转换为MapReduce执行。Pig还支持大量的并行机制和诸多优化技巧，使其能够处理非常庞大的数据集。

第13章有关于Hive和Pig更详细的信息。

一个新的Apache项目(HCatalog)扩展了Hive的元存储，同时保留了Hive DDL中用于表定义的组件。其结果是，Hive的表抽象(当使用了HCatalog时)可以用于Pig和MapReduce应用程序，这带来了以下一些主要优势：

它使得数据消费者不必知道其数据存储的位置和方式。

它允许数据生产者修改物理数据存储和数据模型，同时仍然支持以旧格式存储的现有数据，从而数据消费者不需要修改他们的处理流程。

它为Pig、Hive和MapReduce提供了共享的结构和数据模型。

HCatalog应用程序的数据模型以表的形式组织，表可以放入数据库中。可以基于一个或多个键对表进行散列分区，这允许我们将包含一个(或一组)给定键值的所有行组织在一起。例如，如果使用日期对一个包含三天数据的表进行分区，那么表中将会有三个分区。可以从表中动态地创建和删除新分区。分区是多维度的，而非层次化的。

分区包含多条记录。一旦创建了分区，相应的记录集就确定了，并且不能修改。记录被划分为多列，每列均有名称和数据类型。HCatalog支持与Hive相同的数据类型。

HCatalog还为“存储格式开发者”提供了一个API，用于定义如何读取和写入保存在实际物理文件或HBase表中的数据(与Hive序列化/反序列化——SerDe相比)。HCatalog的默认数据格式是RCFile。但如果数据以不同格式存储，那么用户可以实现HCatInputStorageDriver和HCatOutputStorageDriver来定义底层数据存储和应用程序记录格式之间的转换。StorageDriver的作用域是一个分区，允许底层存储灵活地支持分区修改，或者将不同布局的多个文件合并为一个单独的表。

以下是HCatalog的三个基本用途：

工具间通信——大多数复杂的Hadoop应用程序都会使用多种工具来处理相同的数据。它们可能将Pig和MapReduce的组合用于抽取、转换、加载(ETL)的实现，MapReduce用于实际的数据处理，而Hive用于分析查询。中心化元数据存储库的使用简化了数据共享，并确保了某个工具的执行结果总是对其他工具可见。

数据发现——对于大型Hadoop集群来说，常见的情形是应用程序和数据具有多样性。通常，一个应用程序的数据可以被其他应用程序使用，但试图发现这些情况需要大量跨应用程序的信息。在这种情况下，可以将HCatalog用作对任何应用程序可见的注册表。将数据在HCatalog中发布就可以让其他应用程序发现它们。

系统集成——HCatalog所提供的REST服务，打开了Hadoop数据和处理的大门，使其可以应用在整体的企业级数据和处理基础设施中。Hadoop以简易API和类似SQL语言的形式提供了简单的接口。

本节概述了存储数据的一些方法，以及如何对其进行组装/反组装。下一节介绍一些关于如何为特定应用程序设计数据布局的指南。

0 0