日增30-40亿数据量的数据库

来源:互联网 发布:lol美服数据查询 编辑:程序博客网 时间:2024/06/06 10:39

author:skate

time:2010-08-13


 

 

前几天和个朋友聊天,他说他有每天30-40亿条数据量的数据库如何规划与优化,简单了解需求是这30-40亿数据是每天
采集的,然后同时还对这些采集的数据进行分析挖掘,对于这么大量的数据量有几个问题需要考虑


1. 如何保证性能,如何规划数据库的整体架构
2. 数据存储如何规划
3. 数据库的备份

 

1. 如何保证性能

 

据我理解的需要,这30-40亿数据采集来主要用于分析,那可以把数据按不同类别存储在不同的表中(或分区表),假如分10类,那平均每个类表的数据量就是3亿条,还是很多,对于挖掘分析还是慢,那就再细化,例如把每个类表按每小时分区,每个小时做一次汇总统计,
把数据统计到汇总表里,这样每个小时类表的数据量平均大概是1200万条数据,这个数据量应该就不算太大了,这个只是汇总分析的
思路,然后再考察系统还要提供大量用户的查询,写高效的sql,优化数据库,os参数等可以提高数据库响应速度,但毕竟是有限的,
因为对于这样的数据量系统,一般磁盘io才是最重要的瓶颈,为了减少提高整体的响应速度,要遵守一条原则,就是想办法把数据靠近
cpu,cache是最好的办法,可以大量减少对磁盘的冲击,从而提高响应速度。

 

对于长期保留数据,汇总表也会越来越大,可以采用数据库分布式等(这要根据业务需求)

 

总的原则就是大事化小,小事化无

 

2. 数据存储如何规划

 

存储空间的规划,每天几个T的数据量增长,一定要规划的数据的存储,可以根据数据的重要程度,分级存储,对不用的历史数据及
时下线存储,以为生产提供空间

 

3. 数据库的备份

 

制定合理的满足需求的数据库备份,备份和恢复要平和考虑。备份终于一切

 

 

 

 

----end---

 

 

 

 

 

 

原创粉丝点击