IBM高级工程师谈数据湖管理

来源:互联网 发布:百度贴吧网络连接失败 编辑:程序博客网 时间:2024/05/01 20:48

何为数据湖

数据湖参考架构实际是指分析系统必备的技术能力,不依赖于任何其他技术。这种技术独立是非常重要的,现在有很多公司都投资了数据平台,希望能够将这些数据平台的技术纳入他们的解决方案。此外,技术是在不断进步的,选择哪种技术通常取决于待处理数据的数量、种类和产生速度。

分析系统的成功与否并不仅仅取决于它所采用的技术。数据湖参考架构明确了数据管理过程和各种定义的界限,确保技术之外的人力和业务系统能够展开高效合作,为数据应用创建自助的、安全的环境。

基于数据湖的数据管理

管理的重要性不言而喻。詹姆斯·瓦特发明蒸汽机的时候,同时发明了飞球式调速器管理系统,调节“引擎”平衡,保证工作效率。“引擎”可以是一个工作流程、一个机构组织,或者信息流。对于管理来说,“引擎”就是管理的目标对象, 明确管理对象是管理的重点。

根据不同公司数据管理对象的不同,数据湖的管理方式多种多样。举例来说,IT部门的数据湖“引擎”是各种技术。业务部门也可以将数据湖视为创新引擎的一部分,帮助他们创造新的数据价值。确定数据湖管理项目的第一步就是考虑数据湖不同用户群的需求,再考虑什么样的机制能够在不同需求之间达到兼顾平衡。

举例来说,向数据湖提供数据的系统所有者需要维护来自其系统的数据目录条目,然后他们就可以获得对该数据的质量和稳定性的分析,这有助于他们为用户提供更好的服务。

数据科学家在处理敏感数据时可能会受到各种限制,但是另一方面,他们可以得到丰富的数据目录,在需要使用特定数据集时,他们也能更容易获得批准。他们同时还能为该数据目录提供数据和内容。

他们贡献的内容越多,他们获取数据的过程就越容易。通过建立供应商需求和消费者需求之间的平衡,可以实现投入与产出的平衡,创造可持续的生态系统。

数据湖管理者

除了从用户角度设计管理项目之外,我们还需要确定由谁来控制数据湖,因为数据湖的控制者会影响数据湖的管理方式。如果是IT部门控制数据湖,那么正常的IT管理方式就能够满足数据湖管理的要求。

如果是业务部门管理数据湖,那么我们就需要通过数据服务和元数据,抽离出数据湖的运行机制,明确不同数据种类的区别,创建数据湖视图,来帮助业务部门理解和操作。然后,通过目录中的元数据将此视图映射到实际的数据和技术中,并且数据湖服务将使用元数据设置来驱动数据湖的运作。

一旦“引擎”确定之后,管理项目就可以进入正常的设计阶段:

  • 设定数据湖元数据、格式和最佳实践标准;
  • 检验、监测上述标准的执行;
  • 采取合理方式处理数据异常情况、回答合规问题,并根据反馈进行项目调整。

管理平衡与价值

最后,我想再次强调反馈在实现平衡和价值方面的重要性。管理项目必须是动态的,它必须体现出其自身的价值。反馈机制的重要性也不容忽视,它会提醒项目管理者作出及时调整,应对随时发生的变化。

​更多大数据与分析精品干货请访问慧都大数据bigdata.evget.com

0 0
原创粉丝点击