MetaModel介绍

来源：互联网发布：ubuntu 16.04 32位编辑：程序博客网时间：2024/06/04 20:12

MetaModel——跨多种数据存储提供统一的数据访问

　　最近，Human Inference和Apache软件基金会（ASF）分别宣布了捐赠与接受MetaModel项目的消息，今后MetaModel将成为一个Apache孵化器项目。此前，MetaModel遵循LGPL许可证，由Human Inference的产品开发团队管理，但现在已经转移到了ASF上，将遵循新的许可证、拥有新的社区、接受新的管理。那么这个项目到底是什么呢？它又有哪些用途？

　　MetaModel是一个Java类库，设计它的目的是提供一个可以与任何数据存储（不论是关系型数据库、NoSQL数据库，还是电子表格或者其他格式的文件）进行交互的单一接口。我们的意思是，通过交互来搜索元数据，查询、写入或更改数据存储中保存的数据。很显然，高层次抽象会丢失一些细节，会带来过度概括和丢失重要特性的风险。我们不想把关系型SQL数据库的功能减化到只有像（SELECT * FROM [table]）这样的全表扫描。但另一方面，我们也不想暴露一些只能在特定品牌特定版本的SQL服务器上才能使用的功能，因为这些功能无法在任何其他数据存储上使用。最终，我们想基于现有的常规技能（比如标准SQL）建立数据交互方式。

元数据处理

　　那么，MetaModel项目为数据存储的方法做了怎样的抽象？该项目通过Java接口发布了一个非常类似于SQL的查询模型，有时该模型也可从字符中解析。由于把查询定义为常规的Java对象，就能容易地解析查询（取决于底层技术），并能根据底层技术细节选择最佳的执行策略。这意味着MetaModel不仅提供了一个接口，还提供了一个完整的查询引擎，这个引擎在查询时可以处理部分或者全部任务。如果你使用的是关系型JDBC数据库，会在数据库的本地引擎上执行99%的查询。但是如果使用了MetaModel，就可以利用它的查询引擎把数据切片、切块，就能在CSV文件或Excel电子表格上执行同样的查询了。同时，你根本不必修改查询语句。

　　当然，这得假设你数据存储的元数据与数据结构是兼容的。不同的数据存储以不同的方式暴露或推理元数据。JDBC数据库通常会通过JDBC元数据API暴露元数据。文件格式（比如CSV和Excel表格）并没有很明确地定义，通常可以读取文件的首行内容获取它们的元数据。还有种比较极端的情况，有一些NoSQL数据库甚至根本就没有元数据。MetaModel可以让你选择暴露元数据的方式，你可以指定是以编程方式暴露，或通过检查数据存储的前N条记录的方式来推理出元数据。

　　MetaModel中最核心的设计是DataContext接口，它表示数据存储，可以用它来浏览和查询该数据存储。此外，它的子接口UpdateableDataContext表示可写的数据存储，可以用它更新数据。一旦你拥有了DataContext实例，就可以或多或少地学习使用类库代码补全的功能了。这里有几个DataContext实现的典型示例，让我们来看看它们是如何实例化的：

// a DataContext for a CSV file  UpdateableDataContextcsv = new CsvDataContext(new File(“data.csv”));         // a DataContext for an Excel spreadsheet  UpdateableDataContext excel = new ExcelDataContext(new File(“spreadsheet.xlsx”));         // a DataContext for a JDBC database (can use either DataSource or Connection)  java.sql.DataSourcedataSource = …  UpdateableDataContextjdbc = new JdbcDataContext(dataSource);         // a DataContext for an XML file (where metadata is automatically inferred)  DataContext xml = new XmlDomDataContext(new File(“data.xml”));        // a DataContext for connecting to Salesforce.com’s data web services  UpdateableDataContextsalesforce =  newSalesforceDataContext(username, pw, securityToken);         // a in-memory DataContext for POJOs (useful for testing and mocking)            Person record1 = ...          Person record2 = ...TableDataProvidertableDataProvider = new ObjectTableDataProvider(             “persons”, Person.class, Arrays.asList(record1, record2));  UpdateableDataContextpojos = new PojoDataContext(“schema”, tableDataProvider);

　　对于MetaModel来说元数据极为重要，它不仅用来管理数据结构，而且还用来定义查询。如果你的查询要确保使用了适当的元数据，就需要投入大量的精力保证查询的安全性。因此，作为一名开发人员，你在查询之前就要持有元数据对象。举例来说，如果你知道有一张表，表名是ORDER_LINE，它有一列是price，另一列是order_id，那么就可以用寻常的硬编码方式去查询所需的元数据（显然，只有你熟悉数据存储时才能使用这种方式）：

DataContextdataContext = ... // the DataContext object represents the ‘connection’            Table orderLines = dataContext.getTableByQualifiedLabel(“ORDER_LINES”);            Column price = orderLines.getColumnByName(“price”);          Column orderId = orderLines.getColumnByName(“order_id”);

　　此外，你还可以使用API基于探索的方式动态获取元数据。当你想为用户提供定制查询时，这种方式就能发挥巨大的作用了，你可以用这种方式为用户提供可用的表和列，让用户自己选择所需的查询。

Schema[] schema = dataContext.getSchemas();  Table[] tables = schemas[0].getTables();  Column[] columns = tables[0].getColumns();

　　MetaModel还一个非常重要的思想，它把元数据、查询和其他数据交互都当作是对象。查询在MetaModel中就是一个普通的Java对象，所以你可以在执行之前篡改它，也可以把它分发出去。这使应用程序可以创建由不同代码块协作完成的复合工作流程，在优化查询计划时就不必再面对冗长的SQL字符串操作了。它对类型安全也很有帮助，举例来说，查询模型是基于像列、表等类型安全的结构来描述模型的，而不是采用模糊不清的字符串常量。

数据存储的查询

　　那么，让我们来看看MetaModel是如何查询数据存储的。

　　你可以用三种不同的方式触发同一个查询：

1. 手写所有代码:

　　手写所有代码是POJO的传统方式。用这种方式要写非常冗长的代码，但你能得到最高的灵活性。

Query q = new Query();  q.select(SUM, price);  q.select(orderId);  q.from(orderLines);  q.groupBy(orderId);  q.setMaxRows(100);  DataSetdataSet = dataContext.executeQuery(q);

2. 使用优雅的Builder API:

　　使用Builder API是另外一种类型安全的查询方式，用这种方式只需要编写较短的代码。另外，这个API运用了建造者模式builder-pattern），使开发人员可以迭代调用API，一步一步补充子查询逻辑。如果你只想定义一个组件的查询，首先就应考虑这种方式。

 Query q = dataContext.query().from(orderLines)                          .select(SUM, price).and(orderId)                          .groupBy(orderId).maxRows(100).toQuery(); DataSetdataSet = dataContext.executeQuery(q);

3. 通过字符串解析：

　　有时可能你只想快捷简单地完成工作，那么就可以使用编写SQL语句这种更加传统的方式了。MetaModel也能把普通字符串解析成查询，但这种方式只能在运行期验证查询语句，所以存在类型安全的风险。

Query q = dataContext.parseQuery(             “SELECT SUM(price), order_id FROM order_lines GROUP BY order_id LIMIT 100”);  DataSetdataSet = dataContext.executeQuery(q);

　　很明显可以看出，这三种方式最终的查询结果都是一个DataSet类型的对象，这个对象把查询结果描述成一个表格。DataSet并没有太多复杂的特性，遍历它的方法非常简单，如下所示：

Try {     while (dataSet.next()) {         Row row = dataSet.getRow();  System.out.println(row.toString());     }  } finally {  dataset.close();  }

数据存储的更新

　　MetaModel使用类型安全、元数据驱动的方法执行更新。如前文所述，并非所有的数据存储都是可写的，所以若要写入数据，你不仅仅需要一个DataContext对象，还需要实现UpdateableDataContext接口。假设，我们想更新order表的数据，代码示例如下：

dataContext.executeUpdate(new UpdateScript() {               @Override               public void run(UpdateCallbackcb) {                   // insert a new order line  cb.insertInto(orderLines).value(orderId, 123).value(price, 395).execute();                    // update the price of orderlines where order_id = 122  cb.update(orderLines).where(orderId).eq(122).value(price, 295).execute();               }           });

　　这里要注意UpdateScript的代码结构，更新操作是放在逻辑事务里的。MetaModel会根据不同的底层数据技术选用适当的事务策略，比如JDBC数据库就会采用ACID事务，对于大多数文件格式的存储就会采用同步写入的策略，不一而足。最终使你只需要用单一的语法就能把数据写入到所有数据存储中。

　　因为示例代码使用了匿名内部类，所以看起来并不是特别优雅。但Java 8肯定会借助闭包的概念改进这一点。此外，如果你只希望执行一个单独的操作，也可以使用几个预制的UpdateScript类，它们简单易用，极易上手：

dataContext.executeUpdate(             new InsertInto(orderLines).value(orderId, 123).value(price, 395));

　　而且，你还可以使用executeUpdate方法创建和删除表，也能用它删除表记录。

对新的数据存储支持

　　最后，MetaModel的专家级用户可能会问，“如果我想连接[XYZ]呢？”（XYZ是我们暂不支持的其他数据存储）。很显然，我们希望MetaModel易于扩展，出于这个原因和其他方面的考虑，我们设计了可插拔的查询引擎。你只需要自己实现DataContext接口，但是如果你从头开始实现的话，也不是很简单。所以，我们为你提供了一个抽象类实现，它包括了几个扩展点。以下是全部过程：

先让你的类扩展抽象类QueryPostprocessDataContext。然后你会发现几个需要实现的抽象方法：
- getMainSchema()
  通过实现这个方法，暴露你DataContext的模式模型。
- materializeMainSchemaTable(Table, Column[], int)
  通过实现这个方法，为一张特定的表提供一个相当于全表扫描的实现。
现在你的DataContext就可以使用了，你可以在外来数据存储中开始使用MetaModel了！
但是，我们还要继续优化！虽然我们的DataContext现在完全可以使用了，但是可能它还无法执行某些查询，因为MetaModel查询引擎依赖于materializeMainSchemaTable（...）方法，会把该方法的执行结果作为数据源来处理几乎所有的查询。所以，你可能还需要重写以下几个方法：
- executeCountQuery（...）
  很多数据存储都提供了这么一个统计指定表总记录数的简易方法。由于经常会用到这种查询，所以很有必要重写这个方法。
- materializeMainSchemaTable(Table, Column[], int, int)
  大家很多时候都会采用分页查询的方式获取表数据（从第X条记录到第Y条记录）。为了满足这种查询需求，就需要在这个方法中追加int类型的参数，让使用者可以通过这个参数按页查询，而不必总是查出整张表的所有记录。
- executeQuery(Query)
  如果你想要进一步优化，支持WHERE或GROUP BY子句，就需要重写这个方法。为了满足各种复杂的情况，MetaModel把这个方法的参数（Query）设计为复杂对象类型。在SalesforceDataContext和MongoDbDataContext两个类的源代码中可以找到一些很好的参考示例。

结束语

　　在这篇文章中，我们介绍了MetaModel（它是一个类库，让我们可以用它访问各种不同的数据存储），解释了如何用它处理元数据，如何用它询问存储，以及如何用它更新数据。

　　即使MetaModel搬了新家（Apache），我们将来还会继续完善它。我们将会针对HBase、Cassandra和其他流行的数据库增加更多内置的DataContext实现。并且进一步扩展特性，让你可以利用元数据完成更多的工作。除了这些，我们还有一些其他的想法，比如我们正在努力丰富元数据嵌套结构（比如许多NoSQL数据库都会用到的地图和列表）、创建虚拟表（类似于视图，但要建在客户端上，而不是服务端上）的能力，支持把POJO映射为DataSet行，为查询引擎添加更多的功能。

　　如果您对这个项目感兴趣，可以在Apache Incubator MetaModel页面中查阅到邮件列表、bug跟踪等相关内容。

作者简介

　　Kasper Sørensen是Human Inference的首席软件工程师和产品经理。他的专业特长和兴趣爱好是开发数据密集型应用产品。在哥本哈根商学院毕业时，他创办了DataCleaner和MetaModel这两个开源项目，他硕士论文的部分内容就是关于这两个项目的。你可以在他的博客Kasper’s Source中了解更多内容。

　　查看英文原文：MetaModel – Providing Uniform Data Access Across Various Data Stores

0 0