数据表的水平拆分

来源：互联网发布：新浪博客seo 编辑：程序博客网时间：2024/05/21 07:58

当一个数据表数据量非常大的时候，查询会变得非常慢。

一般来说MySQL达到千万条以后（视情况而定，查询较少的表可能会稍好一点），所以就要尝试分库分表，就是所谓的数据库水平拆分。

水平拆分最重要的一点是按照什么分表. 先不说理论，先看下边实例

用户表 user（ uname-用户名,唯一 upwd- 密码 unickname-昵称）
用户信息表 user_info (uname-用户名,外键 tel-电话 email-邮箱 ……)

假设我们有好多好多数据，有可能上亿条，甚至十亿百亿（绝对是史上最大的用户表了），我们怎么分这个数据表？
按照什么分表？当然 uname 是最佳的选择。不为什么，就因为我们查询的时候最有可能用到这个字段做为唯一查询条件： select * from user where uname='XXX';

方案1：
按照用户名的最后两位来分表。用户名 hello 的用户就存在 user_lo 里边，用户名是world 的就存在 user_ld 里，

这样做的好处是：
                       1. 按照用户名有这样一个散列规则，如果知道用户名的话，经过我们的散列规则算法一下就确定了数据保存在那张数据表中，不需要再搜索
                       2. 数据表中的数据也基本的平均，理论上边每个组合的用户名后两位是平均分布的（事实上是有差别的，如果是自增的数字ID的话是基本上平均的），达到了我们分库分表的初衷
                但是这种算法也是有缺点的：
                      1. 数据表的组合从user_aa 到 user_zz （假如全由字母组成，不区分大小写），有 26*26张数据表，数据表个数是固定的，如果后期发现有些数据表的数据又比较多了，要扩展的话就比较难了。
                      2. 统计起来比较困难。要查询某一个时间段注册的用户，这样的就比较困难了，这样的话就必须查询每一张数据表然后把结果合并起来。

再来看另外一个例子：订单。大家可以发现京东上边是这样做的，京东上边默认查询的是当月的订单，然后所有的订单是另外查询的(卓越亚马逊等其他网站也有好多这么做的)。他们的分表应该是这样的，数据肯定是要按月分的，你所有的订单他就让你再点一下才可以查到。我们模拟一下：

因为用户只能查到自己的订单，所以按照用户分表还是必要的，对于京东来说，按照用户来分还不足以应付这么多的数据量，所以我们就用一个更复杂一点的散列规则，按照用户名和日期组合分表：

order_date_name date 表示日期， name 表示用户名的后两位，比如我这个月订单的数据表就存在 order_201103_ng, 根据我的名字查询我当月的订单就去这帐数据表中查询，查询我的所有订单就去 show tables like 'order_%_ng'; 我把的名字后缀的表先取出来，然后再去查询这些数据表，最后合并结果。

当然你可能会问，后台统计的时候是不是太麻烦了，我可以很负责地告诉你：是！这个没办法，后台取统计数据的话可以延迟个几分钟，老板不会说你，但是如果让前台用户等级分钟老板绝对饶不了你！

总之数据拆分的精髓就在于，根据实际情况将数据按照最合适的规则存储在不同的数据表中，尽量避免多个数据表的数据合并！

出处：http://hi.baidu.com/westfruit/blog/item/c042a11ee05565e91bd57688.html