同步CDC和异步CDC
来源:互联网 发布:千人基因组数据库使用 编辑:程序博客网 时间:2024/06/05 04:45
稍微整理了下关于ETL和CDC增量抽取。
ETL:
Extract(萃取)-Transform(转置)-Load (加载),常用于数据仓库,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。
CDC:
Change Data Capture(改变数据捕获)是Oracle在数据库级别实现的增量抽取解决方案之一。
CDC能够帮助你识别从上次提取之后发生变化的数据。
利用CDC,在对源表进行INSERT、UPDATE或 DELETE等操作的同时就可以提取数据,并且变化的数据被保存在数据库的变化表中。这样就可以捕获发生变化的数据,然后利用数据库视图以一种可控的方式提供给目标系统。
目前,最为常用的ETL增量数据处理方式有三种:1.时间戳(弱点:要求业务系统的表必须一个可以标识新旧数据的字段)
2.日志对比
3.全面数据对比(弱点:高网络负载、性能代价高、无法反映数据的历史状态)
4.触发器(优点:抽取性能高。缺点:需要业务表建立触发器,对业务系统有一定的影响。)
CDC的两个模式:
同步:同步CDC主要是采用触发器记录新增数据,基本能够做到实时增量抽取。
异步:异步CDC通过分析已经commit的日志记录来得到增量数据信息,有一定的时间延迟,并且提供了到oracleStreams的接口。
同步CDC在企业版或者标准版中都可以使用,异步CDC则只包含在企业版中。
CDC的发布订立模型:
CDC体系结构基于发布者/订阅者模型。发布者捕捉变化数据并提供给订阅者。订阅者使用从发布者那里获得的变化数据。
CDC几个概念:
源表(Source Table),业务数据库的需要捕获数据的源表
变化表(Change Table) ,保存从源表捕获的变化数据(包括各种DML产生的数据)
变化集(Change Set),是保证事务一致性的数据集合。一个变化集对应多个变化表
订阅视图(Subscription View),提供给读取变化表数据的视图
订阅窗口(Subscription Window) ,定义了查看变化数据的时间范围.就象一个观察变化数据的滑动窗口。变化数据处理完成后,可以对清除订阅窗口。
- 同步CDC和异步CDC
- CDC
- CDC
- CDC
- cdc
- CDC
- CDC
- CDC
- 异步AutoLog CDC 配置
- 异步HotLog CDC配置
- Oralce 同步CDC配置
- CDC::GetSafeHdc()和CDC::m_hDC的区别
- 谈谈文件增量同步算法:RSYNC和CDC
- 测试CDC和FP
- HDC和CDC关系
- CPaintDC和CDC
- CPaintDC和CDC
- GDI和CDC是什么
- 使用Eureka做服务发现(二)
- linux链接时提示"undefined reference to" 问题解决方法
- 【NOI 2012】 骑行川藏
- 有关Android View 绘制流程
- Android
- 同步CDC和异步CDC
- 把一个数组最开始的若干个元素搬到数组的末尾,我们称之为数组的旋转。 输入一个非递减排序的数组的一个旋转,输出旋转数组的最小元素。 例如数组{3,4,5,1,2}为{1,2,3,4,5}的一个旋转,该数
- 删除大型数据表数据可行性办法
- mysql常用知识点
- HTML常用标签
- Windows下生成txt文件时的换行
- Tomcat服务器自动加载监听器
- 读书笔记_unix网络编程_20170703
- call和apply的区别