nosql--简介

来源:互联网 发布:淘宝怎么投诉卖家手机 编辑:程序博客网 时间:2024/06/05 21:18

NoSQL,泛指非关系型的数据库。随着互联网web2.0网站的兴起,传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心,暴露了很多难以克服的问题,而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用难题。


(一)NoSQL数据库的四大分类


(1)键值(Key-Value)存储数据库
这一类数据库主要会使用到一个哈希表,这个表中有一个特定的键和一个指针指向特定的数据。Key/value模型对于IT系统来说的优势在于简单、易部署。但是如果DBA只对部分值进行查询或更新的时候,Key/value就显得效率低下了。 举例如:Tokyo Cabinet/Tyrant, Redis, Voldemort, Oracle BDB.
典型应用场景:内容缓存,主要用于处理大量数据的高访问负载,也用于一些日志系统等等。
 数据模型:Key 指向 Value 的键值对,通常用hash table来实现
优缺点:查找速度快;数据无结构化,通常只被当作字符串或者二进制数据
(2)列存储数据库。
这部分数据库通常是用来应对分布式存储的海量数据。键仍然存在,但是它们的特点是指向了多个列。这些列是由列家族来安排的。如:Cassandra, HBase, Riak.
典型应用场景:分布式的文件系统
 数据模型:以列簇式存储,将同一列数据存在一起
优缺点:查找速度快,可扩展性强,更容易进行分布式扩展;功能相对局限

(3)文档型数据库
文档型数据库的灵感是来自于Lotus Notes办公软件的,而且它同第一种键值存储相类似。该类型的数据模型是版本化的文档,半结构化的文档以特定的格式存储,比如JSON。文档型数据库可 以看作是键值数据库的升级版,允许之间嵌套键值。而且文档型数据库比键值数据库的查询效率更高。如:CouchDB, MongoDb. 国内也有文档型数据库SequoiaDB,已经开源。
典型应用场景:Web应用(与Key-Value类似,Value是结构化的,不同的是数据库能够了解Value的内容)
 数据模型:Key-Value对应的键值对,Value为结构化数据
优缺点:数据结构要求不严格,表结构可变,不需要像关系型数据库一样需要预先定义表结构;查询性能不高,而且缺乏统一的查询语法。


(4)图形(Graph)数据库
图形结构的数据库同其他行列以及刚性结构的SQL数据库不同,它是使用灵活的图形模型,并且能够扩展到多个服务器上。NoSQL数据库没有标准的查询语言(SQL),因此进行数据库查询需要制定数据模型。许多NoSQL数据库都有REST式的数据接口或者查询API。 如:Neo4J, InfoGrid, Infinite Graph.
典型应用场景:社交网络,推荐系统等。专注于构建关系图谱
 数据模型:图结构
优缺点:利用图结构相关算法。比如最短路径寻址,N度关系查找等;很多时候需要对整个图做计算才能得出需要的信息,而且这种结构不太好做分布式的集群方案。
NO-SQL数据库 能干什么:
1.易扩展:
 a.NoSql数据库种类繁多,但是有一个共同的特点都是去掉关系数据库的关系型提醒。
 b.数据之间无关系,这样就非常容易扩展,也无形之间,在架构的层面上带来了可扩展的能力。

2.大数据量高性能:
 a.NoSql数据库都具有非常高的读写性能,尤其在大数据下,同样表现优秀。
 b.这得益于它的无关系行,的数据库结构简单。
 c.一般MySQL使用Query Cache(查询缓存),每次表的更新Cache就失效,是一种大粒度的Cache
    在针对web2.0的交互频繁的应用,Cache性能不高,而NoSQL的Cache是记录级的
    是一种细粒度的Cache,所以NoSQL在这个层面上来说就要性能高很多了。
3.多样灵活的数据模型:
 a.NoSql无需事先为要存储的数据建立字段,随时可以存储自定义的数据格式。

 b.而在关系数据库中,增、删字段是一件非常麻烦的事情,如果是非常大的数据量的表,

    增加一个字段那你就会想死。

4.传统RDBMS VS NoSql:
 a.RDBMS(传统的关系型数据库):
--高度组织化结构化数据
--结构化查询语言(SQL)
--数据和关系都存储在单独的表中
--数据操纵语言,数据定义语言
--严格的一致性
--基础事务ACID:
1.A(Atomicity)原子性
2.C (Consistency)一致性
3.I (Isonlation)隔离性
4.D (Durability)持久性
 b.NoSQl(非关系型数据库):
--代表着不仅仅是SQL
--没有声明性查询语言
--没有预定义的模式
--键-值对存储,列查询,文档存储,图形数据库
--最终一致性,而非ACID属性
--CAP定理:
1.一致性,数据一致更新,所有数据变动都是同步的
2.可用性,好的响应性能
3.分区容错性,可靠性
--高性能,高可用和高可伸缩性

在分布式数据库中的CAP原理:
    1.传统的ACID分别是:
   (1).A(Atomicity)原子性:

              a.原子性很容易理解,也就是说事务里的所有操作要么全部做完,要么都不做事务成功

                 的条件是事务里的所有操作都成功,只要有一个操作失败,整个事务就失败,需要回滚。

      b.比如:银行转账,从A账户转100元至B账户,分为两个步骤:

 (1)从A账户中取100元;(2)存入100元至B账户,这两步要么一起成,要么都不完成

          如果只完成第一步,第二步失败,钱会莫名其妙的少了100元。

   (2).C (Consistency)一致性:

a.一致性,也就是说数据库要一直处于一致性的状态,事务的运行不会改变数据库原本

   的一致性约束。

   (3).I (Isonlation)隔离性:

a.所谓的独立性是指并发的事务之间不会互相影响,如果一个事务要访问的   

   数据正在被另外一个事务修改,只要另外一个事务未提交,它所访问的数据

   就不会受未提交事务的影响,

b.比如:有个交易是从A账户转100元至B账户,在这个交易还未完成的情况下,

   如果此时B查询自己的账户,是看不到新增加的100元。

   (4).D (Durability)持久性:

a.持久性是指一旦事务提交后,它所做的修改将会永久的保存在数据库上,

   即使出现启机也不会丢失

  2.CAP分别是:

  (1).C (Consistency) 强一致性

  (2).A (Availability) 可用性

  (3).P (partition tolerance)分区容错性



  3.CAP的核心理论:
  (1).一个分布式系统不可能同时很好的满足一致性、可用性和分区容错性这三个需求,
     最多只能同时较好的满足两个。因此根据CAP原理将NoSQL数据库分成满足CA原则、
     满足CP原则和满足AP原则三大类:
a.CA -单点集群,满足一致性、可用性的系统,通常在可扩展性上不太强大。
b.CP -满足一致性、分区容错性的系统,通常性能不是特别高。

c.AP -满足可用性、分区容错性的系统,通常可能对一致性要去比较低一些。

4.CAP的3进2的概念:
(1).CAP理论就是说在分布式存储系统中,最多只能实现上面的两点。
   而由于当前的网络硬件肯定会出现延迟丢包等问题,所以分区容错性
   是必须需要实现的。所以3进2只能在一致性和可用性之间进行权衡,
   有NoSQL系统能同时保证这三点。
 a.CA 强一致性、高可用性就是传统的Oracle、MySQL之类的关系型数据库。
 b.AP 高可用性、分区容错性是大多数网站架构的选择(什么天猫、京东)。
 c.CP 强一致性、分区容错性就是Redis、MongoDB数据库。