速度飞跃——关系型数据库到非关系型数据库

来源:互联网 发布:ubuntu 查看内核版本 编辑:程序博客网 时间:2024/05/24 04:32

        小编这两天看了很多有关于redis,memcached等缓存的出现历史,对于从关系型数据库到非关系型数据库的发展有很大的感受,所以写这篇文章和大家分享一下。

       

一、定义


         关系型数据库:是指使用了关系模型来组织数据的数据库。

       简单来说,关系模型指的就是二维表格模型,而一个关系型数据库就是由二维表及其之间的联系所组成的一个数据组织。

        关系模型中常用的概念:
  • 关系:可以理解为一张二维表,每个关系都具有一个关系名,就是通常说的表名
  • 元组:可以理解为二维表中的一行,在数据库中经常被称为记录
  • 属性:可以理解为二维表中的一列,在数据库中经常被称为字段
  • 域:属性的取值范围,也就是数据库中某一列的取值限制
  • 关键字:一组可以唯一标识元组的属性,数据库中常称为主键,由一个或多个列组成
  • 关系模式:指对关系的描述。其格式为:关系名(属性1,属性2, ... ... ,属性N),在数据库中成为表结构
        非关系型数据库:指的是没有sql的数据库,也就是没有使用关系模型的数据库,仅靠键值对来进行查找和插入数据的数据库。
        

二、发展历史


        关于我们的数据库的发展我就不多说了,但是数据库从一开始出现的时候就是以关系模型为基础的数据库被设计出来的,关系模型是在1970年由IBM的研究员E.F.Codd博士首先提出的,在之后的几十年中,关系模型的概念得到了充分的发展并逐渐成为主流数据库。由于那个时候由于计算机的数量和使用人数比较有限,加上使用的人也不多,还有关系型的数据库真的是一个伟大的可行的数据存储方式,所以现在被广泛的使用。
        经过了这么多年的发展,随着互联网的不断进步,计算机的普及以及人们的接受,数据访问也面临很大的挑战,就是高并发的访问问题。一部分原因是请求增加的原因,还有一部分原因其实是网络和计算机其他硬件的发展日新月异,速度远远高出硬盘速度的提升速度,所以磁盘I/O速度瓶颈问题就成为了我们现有的数据库访问的瓶颈。
        由于现在网络的发展,导致同一个数据库的被访问数量成几何速度增长,逐渐已经超过了硬盘I/O的承受范围,所以我们现在迫切需要一种新的技术来帮助硬盘进行更高速的读写,所以这种基于非关系型的,内存数据库便产生了。

三、原因


        众所周知,内存的读写速度是仅次于cpu核心cache的一种快速存储,所以内存的I/O速度是要比磁盘的速度高好多数量级的。又由于现代基于数据库的网站应用(尤其是进入web2.0)之后,我们更多的数据请求其实是查询而不是修改和删除,所以智慧的程序员们就想到了把数据查询出来,放到内存中备用的一种方案。
       又由于关系型数据库存在一些缺陷,包括:
  • 海量数据的高效率读写

     网站每天产生的数据量是巨大的,对于关系型数据库来说,在一张包含海量数据的表中查询,效率是非常低的

  • 高扩展性和可用性

      在基于web的结构当中,数据库是最难进行横向扩展的,当一个应用系统的用户量和访问量与日俱增的时候,数据库却没有办法像web server和app server那样简单的通过添加更多的硬件和服务节点来扩展性能和负载能力。对于很多需要提供24小时不间断服务的网站来说,对数据库系统进行升级和扩展是非常痛苦的事情,往往需要停机维护和数据迁移。


     对网站来说,关系型数据库的很多特性不再需要了:

  • 事务一致性

     关系型数据库在对事物一致性的维护中有很大的开销,而现在很多web2.0系统对事物的读写一致性都不高

  • 读写实时性

       对关系数据库来说,插入一条数据之后立刻查询,是肯定可以读出这条数据的,但是对于很多web应用来说,并不要求这么高的实时性,比如发一条消息之后,过几秒乃至十几秒之后才看到这条动态是完全可以接受的。

  • 复杂SQL,特别是多表关联查询

       任何大数据量的web系统,都非常忌讳多个大表的关联查询,以及复杂的数据分析类型的复杂SQL报表查询,特别是SNS类型的网站,从需求以及产品阶级角度,就避免了这种情况的产生。往往更多的只是单表的主键查询,以及单表的简单条件分页查询,SQL的功能极大的弱化了。

       在关系型数据库中,导致性能欠佳的最主要原因是多表的关联查询,以及复杂的数据分析类型的复杂SQL报表查询。为了保证数据库的ACID特性,我们必须尽量按照其要求的范式进行设计,关系型数据库中的表都是存储一个格式化的数据结构。每个元组字段的组成都是一样,即使不是每个元组都需要所有的字段,但数据库会为每个元组分配所有的字段,这样的结构可以便于标语表之间进行链接等操作,但从另一个角度来说它也是关系型数据库性能瓶颈的一个因素。


        基于上述原因,现在的多字段的查询并不能满足现在的网络时代的查询需求,所以非关系型数据库的使用更加的适应我们的应用。


四、总结,发展


        由于现在使用非关系型的数据库可以满足我们的不同的高并发需求,也正是如此我们也就更要学习好这些新的非关系型的数据库。现在的非关系型数据库主要有, memcache、redis、MongoDB、Dynomite、Cassandra等等。所以非关系型数据库的发展也是一个趋势,当然非关系型数据库也有一些限制,我们下篇博客再接着细论。

0 0
原创粉丝点击