checkpoint的应用总结

来源：互联网发布：抓取访客手机号源码编辑：程序博客网时间：2024/06/03 22:38

数据库中的checkpoint机制：

一般所说的checkpoint是一个数据库事件(event)，checkpoint事件由checkpoint进程发出，当checkpoint事件发生时DBWn会将脏块写入到磁盘中，同时数据文件和控制文件的文件头也会被更新以记录checkpoint信息。

在数据库系统中，写日志和写数据文件是数据库中IO消耗最大的两种操作，在这两种操作中写数据文件属于分散写，写日志文件是顺序写，因此为了保证数据库的性能，通常数据库都是保证在提交(commit)完成之前要先保证日志都被写入到日志文件中，而脏数据块则保存在数据缓存(buffer cache)中再不定期的分批写入到数据文件中。也就是说日志写入和提交操作是同步的，而数据写入和提交操作是不同步的。这样就存在一个问题，当一个数据库崩溃的时候并不能保证缓存里面的脏数据全部写入到数据文件中，这样在实例启动的时候就要使用日志文件进行恢复操作，将数据库恢复到崩溃之前的状态，保证数据的一致性。检查点是这个过程中的重要机制，通过它来确定，恢复时哪些重做日志应该被扫描并应用于恢复。

checkpoint的触发情景：

1.当发生日志组转换的时候

      2.当符合 LOG_CHECKPOINT_TIMEOUT，LOG_CHECKPOINT_INTERVAL，fast_start_io_target，fast_start_mttr_target 参数设置的时候
      3.当运行ALTER SYSTEM SWITCH LOGFILE的时候
      4.当运行ALTER SYSTEM CHECKPOINT的时候
      5.当运行alter tablespace XXX begin backup，end backup的时候

6.当运行alter tablespace ,datafile offline的时候;

Spark等大数据系统框架为了优化容错处理过程采用的checkpoint机制：

在Spark或者Tachyon等系统中一般采用的容错机制是Lineage（血统）机制（记录job的计算过程形成Lineage，当发生错误的时候，通过Lineage来进行重新再计算即可进行错误回复，在这里不再详细描述），当操作或者是算法较为复杂的时候，Lineage也会相应的变得很复杂，重计算过程的开销就会变大。checkpoint的引入就是为了解决（替代）上述问题。

传统做检查点有两种方式：通过冗余数据和日志记录更新操作。比如Spark就是采用冗余数据的方法来进行checkpoint操作的。

检查点一般是以目录链表的形式存储在HDFS等文件管理系统中的。在 Checkpoint 目录中主要存储两种数据：MetaDate checkpointing 和 Data checkpointing。

0 0