ETL----数据表规模估算表

来源:互联网 发布:协方差矩阵公式cov方差 编辑:程序博客网 时间:2024/06/06 01:29

数据库表规模估算需要考虑的问题,下表中列出了集结区中每张表的如下信息: 

  表名称。在集结区中的表或者文件的名字。在计算表中每个集结表都占用一行。 

  更新策略。这个字段表明表的维护方式。如果是一个永久表,可能的策略为追加数据、更新或删除。如果是临时集结表,在每个过程中都会被删减和重新加载。 

  加载频率。ETL 过程对表中的数据以什么样的频率加载和更改。通常是每日一次。还可以为每周、每月或者任意的时间间隔。在一个实时环境中,在集结区中的表可能不断的被更新。 

  ETL作业。集结区表通过ETL作业进行操作和更新。ETL作业指的是操作集结区表或者文件的作业或者程序。当多个作业操作单个的表的时候,在估算表的这个字段中列出所有的作业。 

  初始行数。ETL 小组必须估计在集结区初始的时候每个表中的记录数。记录数通常和源表和目的表的行数有关。 

  平均行长度。为了估算空间大小,必须将每个集结区表的平均行长度提供给DBA。在Oracle环境中,我们通常在开发环境中创建表,运行统计后从ALL_TABLES中收集这些信息。例如,在Oracle 中DBMS_STATS包可以用于生成相应的统计字段信息。 

  增长。虽然每张表都是按照调度周期进行更新的,但不会每次都增长。在估算表中的增长字段(GrowWith)是基于业务规则。你必须定义集结区中的表何时会增长,例如一个状态表只有在增加新状态的时候才会增长,尽管这些表每天都会被访问来查看是否有变化,但是增加新的状态的情况并不常发生。 

  预计每月行数。这个估计是根据历史和业务规则。DBA需要根据预期的增长来给表分配空间。每月行数是计算每个月增长多少字节的重要因素。 

  预计每月字节数。预计每月字节数等于平均行长度乘以预计每月行数。 

  初始表大小。初始表大小通常用字节或者兆字节来表示。取值等于平均行长度乘以初始行数。 

  6个月表大小。6个月表大小的估算可以帮助DBA小组估计集结区数据库或文件系统的增长情况,通常用兆字节表示,计算公式为  ((平均行长度  * 初始行数)+(平均行长度  * 预计月行数  * 6))/1,048,576 。 

原创粉丝点击