Mongdob是什么?

来源:互联网 发布:无间道1的知乎 编辑:程序博客网 时间:2024/06/14 05:44

MongoDB的来源

MongoDB的名字源自一个形容词humongous(巨大无比的),在向上扩展和快速处理大数据量方面,它会损失一些精度。

MongoDB由10gen公司的工程师研发,并由其公司进行维护,而其他很多的NOSQL产品都是由个人的工程师根据使用场景开发出来,从后期的使用维护和文档的健全以及社区的活跃程度上来说,对于这种由商业公司开发维护的数据库产品更能让人放心使用,现在已经有很多公司讲MONGODB部署到了生产环境当中

在旧金山举行的MondoDB大会上,Merriman说:“你不适宜用它来处理复杂的金融事务,如证券交易,数据的一致性可能无法得到保证”。

NoSQL数据库都被贴上不同用途的标签,如MongoDB和CouchDB都是面向文档的数据库,但这并不意味着它们可以象JSON(JavaScript ObjectNotation,JavaScript对象标记)那样以结构化数据形式存储文本文档。


JSON被认为是XML的代替品,它是一个轻量级的,基于文本交换数据的标准,和XML一样具有人类易读的特性。简单的JSON数据结构叫做对象,可能包括多种数据类型,如整型(int),字符串(string),数组(array),日期(date),对象(object)和字节数组(bytearray)。

MongoDB的特点

1. MongoDB从存储的角度来说,属于文档型数据库,底层使用C++进行开发,设计范式是反传统的数据库范式。相关的对象被记录在一个文档中,每个文档的内部是schema-free的,也就是数据库不再按照关系数据库中每列中的数据都必须要求类型一致,列名可以自由指定,比较灵活多变,当面对各种复杂多变的使用场景时优势十分明显。数据的存储以BSON的二进制进行存储。当然高效率的前提下,也必当带来一些数据冗余和存储上面的消耗。

2. MongoDB中的每个文档都是独立存在的,每个文档中都包含了所有信息,这样每个集合之间也就独立存在,没有了传统的关系范式的存在,所以传统的join操作就显得没有必要了,也正是因为去除了这种“关系”,使得Mongodb在水平拆分的时候更佳容易,这也是面对海量数据时一个很好的处理方法。

MongoDB的索引,在索引的使用上,MongoDB和传统的关系数据库并无太大区别,依旧使用B+ tree来设计索引,使用方法可以参考传统关系数据库的经验。

 

3. MongoDB的数据读取:内存管理上,MONGODB将其交给了操作系统,本身并不参与内存的使用管理。而如果内存使用率达到了一定比例的时候比如说100%,此时的写操作已经进行不了了,数据库濒临宕机状态。所以在生产环境使用MONGODB的时候要时刻留意操作系统的内存使用情况。

MongoDB由于采用了mmap机制,如果索引和热数据能被内存完全装下,那么其操作基本上相当于内存操作,所以MongoDB的当机性能是相当高的。

Mongodb使用了底层操作系统提供的内存映射机制,MMAP。MMAP机制可以帮助我们将磁盘文件中的一部分或者全部内容直接映射到内存当中,这样磁盘中的文件的信息位置就会在内存中有对应的地址空间,这时对文件的读写可以直接用指针来进行,而不需要read/write函数的帮助了。于此同时,操作系统会将数据刷新保存到磁盘上。

如下图所示:

      

4. MongoDB数据存储格式 BSON特性探讨及基于其特性的MongoDB优化

BSON是由10gen开发的一个数据格式,目前主要用于MongoDB中,是MongoDB的数据存储格式。

BSON基于JSON格式,选择JSON进行改造的原因主要是JSON的通用性及JSON的schemaless的特性。

BSON主要会实现以下三点目标:

A.更快的遍历速度

对JSON格式来说,太大的JSON结构会导致数据遍历非常慢。在JSON中,要跳过一个文档进行数据读取,需要对此文档进行扫描才行,需要进行麻烦的数据结构匹配,比如括号的匹配,而BSON对JSON的一大改进就是,它会将JSON的每一个元素的长度存在元素的头部,这样你只需要读取到元素长度就能直接seek到指定的点上进行读取了。

MongoDB优化:对于MongoDB来说,由于采用了MMAP来做内存与数据文件的映射,在更新或者获取Document的某一个字段时,如果需要先读取其前面的所有字段,会导致物理内存由于读操作被加载到不必要的字段上,导致资源的不合理分配。而采用BSON只需要读到相应的位置然后跨过无用内容读取需要内容即可。

B.操作更简易

对JSON来说,数据存储是无类型的,比如你要修改基本一个值,从9到10,由于从一个字符变成了两个,所以可能其后面的所有内容都需要往后移一位才可以。而使用BSON,你可以指定这个列为数字列,那么无论数字从9长到10还是100,我们都只是在存储数字的那一位上进行修改,不会导致数据总长变大。当然,在MongoDB中,如果数字从整形增大到长整型,还是会导致数据总长变大的。

MongoDB优化:所以使用MongoDB的一个技巧是将长度可能变化的字段尽量命名靠后(MongoDB在update操作后会将字段按key值按字母顺序重排,所以靠后的意思是按a-z的顺序取名)。这样在更新的时候如果导致数字变长,不需要移动大量数据。一个典型的例子是如果用二进制类型存储文件时,如果文件名或者文件描述可能会变长,那么尽量将这个字段取名靠后是一个明智的选择,否则在文件名或文件描述字段变化时,会导致移动很长的二进制数据,造成不必要的浪费。

C. 增加了额外的数据类型

JSON是一个很方便的数据交换格式,但是其类型比较有限。BSON在其基础上增加了“byte array”数据类型。这使得二进制的存储不再需要先base64转换后再存成JSON。大大减少了计算开销和数据大小。

当然,在有的时候,BSON相对JSON来说也并没有空间上的优势,比如对{“field”:7},在JSON的存储上7只使用了一个字节,而如果用BSON,那就是至少4个字节(32位)

MongoDB优化:在MongoDB中,如果你的字段是数字型,并且涉及到数据加减操作的,那么建议存在int型,但如果是一个固定不变的数字,并且在四位以下的话,可以考虑存成字符串类型。这样会节省空间。

目前在10gen的努力下,BSON已经有了针对多种语言的编码解码包。并且都是Apache 2 license下开源的。并且还在随着MongoDB进一步地发展。关于BSON,你可以在其官方网站 bsonspec.org 上获取更多信息。


原创粉丝点击