支持海量数据的 MongoDB NoSQL
来源:互联网 发布:多源数据 编辑:程序博客网 时间:2024/05/19 06:46
关于参考卡
MongoDB 是一个面向文档的数据库,几乎可以通过任何语言轻松使用。这份简单说明涵盖了一堆 MongoDB 中最方便和容易被遗忘的选项、命令和技术。
配置选项
设置项
你可以在命令行或配置文件中设置 MongoDB 的启动选项。两者之间的语法略有不同。这里有三类选项:
运行 mongod --help 可以获得所有选项的列表,下面是最常用的一些:
要安全启动 mongod,使用 nohttpinterface 和 bind_ip 选项,并确保外界无法访问它。尤其是确保其它选项没有启用。 MongoDB 依赖下列网络访问性:
- 单服务器 — 能够接收客户端的连接。
- 副本集合 — 能够接收来自集合成员的连接,包括它们自己的。客户端必须能够连接任何可以成为首服务器的集合成员。
- 分片 — mongos 进程必须能够连接到配置服务器和每个分片。分片必须能彼此连接且能连接到配置服务器。客户端必须能连接 mongos 进程。配置服务器则无需连接其它的,哪怕是另一个配置服务器。
所有的连接都是通过TCP进行的。
查看配置
如果你6个月前启动mongod时做了一堆配置,那么现在你如何知道做了什么配置呢?这里提供了一个shell小助手:
> db.serverCmdLineOpts(){ "argv" : [ "./mongod", "--port", "30000" ], "parsed" : { },"ok" : 1 }
解析后的字段是从配置文件读取的一些参数列表.
使用shell
Shell帮助
当你忘记一个命令时,mongodb提供了许多功能帮助你:
> // basic help> helpdb.help() help on db methodsdb.mycoll.help() help on collection methodssh.help() sharding helpersrs.help() replica set helpershelp admin administrative helphelp connect connecting to a db help...
注意对于数据库,集合,副本集,分片,管理员等提供了单独了帮助功能。这里没有一一列出,像游标的帮助功能如下:
> // list common cursor functions> db.foo.find().help()
你可以使用这个功能和小助手作为一个内置的备忘清单。
查看方法的定义
如果你不知道一个方法是干什么用的,你可以在shell中通过去除括号的方式运行它,查看它的源码:
> // run the function> db.serverCmdLineOpts(){ "argv" : [ "./mongod" ], "parsed" : { }, "ok" : 1 }> // see its source> db.serverCmdLineOptsfunction () {return this._adminCommand("getCmdLineOpts");}
这可以帮助我们获悉这个方法需要什么参数和抛出什么错误,以及如何在其他语言中使用。
使用编辑功能
shell命令限制多行的支持,因此在里面编写程序很费劲,shell编辑小助手让它更加简单,打开一个文本编辑器,编辑一个变量,例如:
> x = function() { /* some function we're going to fill in */ }> edit x
在编辑器修改一个变量保存退出。这个变量就在shell里面被设定好了。
不管是编辑器的环境变量或者MongoDB shell的变量编辑环境,都必须设置使用edit模式。你可以在MongoDB shell中通过如下命令配置:
> EDITOR="/usr/bin/emacs"
编辑模式在JavaScript脚本下是无法使用的,只能在交互的shell中使用。
.mongorc.js
如果你的主目录下有个.mongorc.js文件,那么当你启动shell时他就会自动运行。使用它可以初始化任何你经常使用的helper方法和你不想意外操作的删除方法.
比如,你不想使用默认的dropDatabase()方法了,你可以在.mongorc.js文件中添加下面的命令:
DB.prototype.dropDatabase = function() {print("No dropping DBs!");}db.dropDatabase = DB.prototype.dropDatabase;
上面的例子改变了dropDatabase() helper方法,使他只打印出一行信息,而没有真正的删除数据库.
注意这个技巧不是一个安全手段,固执的用户仍然可以在不使用helper前提下删除数据库。然而,移除危险的admin权限命令也可以帮助阻止“大堤的奔溃”.
几个建议在.mongorc.js中使用helper命令时移除的:
- DB.prototype.shutdownServer
- DBCollection.prototype.drop
- DBCollection.prototype.ensureIndex
- DBCollection.prototype.reIndex
- DBCollection.prototype.dropIndexes
改变提示
shell的提示可以通过一个方法设置提示变量的方式来改变:
prompt = function() {try {db.getLastError();}catch (e) {print(e);}return (new Date())+"$ ";}
如果你设置了提示,每次执行时都会重新返回提示信息(上面的例子将返回最后执行的信息)。
尝试在你的提示里面调用db.getLastError()方法,这将包含默认的提示和服务器重新连接以及返回的错误信息.
同时,把任何可能出现异常的用try/catch包裹起来,那是非常恼人的,当你的提示变成了一个异常信息!
操作诊断
查看和终止操作
你可以通过currentOp查看当前操作状态:
> db.currentOp(){"inprog" : [{"opid" : 123,"active" : false,"locktype" : "write","waitingForLock" : false,"secs_running" : 200,"op" : "query","ns" : "foo.bar","query" : {}...},...]}
使用上面的opid字段,你可以终止这个操作:
> db.killOp(123)
不是所有的操作都能被终止或者立刻终止,通常,操作不会被终止,直到他们获取到锁.
active字段表明操作当前是否在运行,如果一个操作没有运行,通常是要么没启动,要么在等待锁,要么执行了其他操作。通过numYields你可以查看操作执行的时间.
索引使用
使用explain()来查看当前查询操作使用了哪个索引.
> db.foo.find(criteria).explain(){"cursor" : "BasicCursor","isMultiKey" : false,"n" : 2,"nscannedObjects" : 2,"nscanned" : 2,"nscannedObjectsAllPlans" : 2,"nscannedAllPlans" : 2,"scanAndOrder" : false,"indexOnly" : false,"nYields" : 0,"nChunkSkips" : 0,"millis" : 0,"indexBounds" : {},"server" : "ubuntu:27017"}
explain()输出中有几个重要的字段:
- n: 返回记录行数.
- nscanned: 使用索引读取的记录数量.
- nscannedObjects: 被扫描的文档数量.
- indexOnly: 如果查询没有使用集合本身.
- nYields: 查询读取锁的释放时间和等待下次操作时间.
- indexBounds: 当使用索引时,显示的索引扫描范围.
游标类型
一个遍历游标(BasicCursor)意味着没有使用索引;一个B树游标(BtreeCursor)意味着使用了一个常用的索引;平行游标被用于分片;二维空间索引(geospatial indexes)使用他们自己特殊的游标。
一旦一个数组被索引,那么索引上就会设定一个“multikey”标记,这就是对上面isMultiKey字段的解释。这个标记在索引生命周期内一直保存,除非你去掉了数组的索引。
如果应用索引做查询的话,explain输出的信息里将包含索引范围字段,它描述了索引遍历到的那部分记录。比如,如果你知道你的文档里面有个age字段,并且年龄在0-120之间均匀分布,索引范围从3-5,你可以看到索引只需扫描一小部分数据就能满足你的查询需要。
暗示(Hinting)
使用hint()能让查询强制使用一个特殊的索引:
> db.foo.find().hint({x:1})
这个暗示必须和你想使用的的索引key相匹配,你可以通过运行下面命令查看可用的索引:
> db.foo.getIndexes()
一般来说,你可以创建一个索引用于查询。如果你有一个查询和排序,建索引最合适的字段取决于你的查询。如果查询一个单一的值(如:{x:y}),索引应该这样建{queryField: 1, sortField: 1}。如果查询的是一个范围或者集合,采用这样的方式建索引可能更高效:{sortField: 1, queryField: 1}。如果你是用这个索引,MongoDB必须扫描所有的索引查找结果集,但是它可以在不使用内存排序的情况下返回有序的结果。
系统性能分析
你可以打开系统分析,看看数据库的操作信息。虽然性能上会有损失,但可以帮助我们避免慢查询。
> db.setProfilingLevel(2) // profile all operations> db.setProfilingLevel(1) // profile operations that take longerthan 100ms> db.setProfilingLevel(1, 500) // profile operations that takelonger than 500ms> db.setProfilingLevel(0) // turn off profiling> db.getProfilingLevel(1) // see current profiling setting
性能条目保存在开启性能分析的数据库中名为 system.profile 的集合。可以针对单个数据库开启和关闭性能分析。
副本集
要找到延迟的复制,连接到一个备节点并运行这个函数:
> db.printReplicationStatus()configured oplog size: 2000MBlog length start to end: 23091secs (6.4hrs)oplog first event time: Fri Aug 10 2012 04:33:03 GMT+0200 (CEST)oplog last event time: Mon Aug 20 2012 10:56:51 GMT+0200 (CEST)now: Mon Aug 20 2012 10:56:51 GMT+0200 (CEST)
要查看某个成员对集合的性能状况,连接到这个成员,并运行:
> rs.status()
此命令会告诉你其他成员之于它的状态和地位。
在一个备节点上运行 rs.status() 将告诉你备节点是从 syncingTo字段中哪个中同步数据的。
分片
要查看群集的元数据(分片,数据库,文件,数据等),请运行下面的函数:
> db.printShardingStatus()> db.printShardingStatus(true) // show all chunks
您也可以连接到 Mongos ,使用“use config”查看分片,数据库,集合,或块的数据,然后查询相关的集合。
> use configswitched to db config> show collectionschunksdatabaseslockpingslocksmongossettingsshardssystem.indexesversion
永远都连接到 mongos 获取分片信息。永远不要直接连接配置服务器。永远不要直接写入配置服务器。。永远使用分片命令和帮助。
在维护之后,有时实际上没有实施维护的 mongos 进程的配置版本号将不会更新。无论是回弹服务还是运行 flushRouterConfig 命令都能快速解决问题。
> use admin> db.runCommand({flushRouterConfig:1})
通常这个问题将表现为 setShardVersion 失败的错误。
无需担心日志中的 setShardVersion 错误,但它们不应该出现在您的应用程序中(除非 mongos 无法连接到任何配置服务器,否则你不应该得到错误)。D
要添加新的分片,运行:
> db.addShard("rsName/seed1,seed2,seed3")
要在数据库上运用分片,运行:
> db.adminCommand({enableSharding: true})
要在集合上运用分片,运行:
> db.adminCommand({shardCollection: "dbName.collName",unique: true, key: {fieldName: 1}})
既不应该已经存在 dbName.collName,也不应该已经索引fieldName(分片关键字)。如果你在使用唯一分片关键字,它必须是唯一索引的。
在集群中,如果你不是在 _id 上分片,_id 无需唯一。不管怎样,它们都在独立的分片上(就是说,你可以在 shard1 上有一个_id:123,在 shard2 生也有一个_id:123,但它们不能同时存在于 shard1中)。文件往往在分片间移动,如果是自己生成的_id,你需要确保你的_id唯一。如果你用的是Object_Id 就不会出问题。
要关闭均衡器,通过的 mongos 更新 config.settings 集合:
> sh.setBalancerState(false)
要恢复,则使用同样的命令,传递一个 True。
Mongo监控服务 (MMS)
MMS 是一种免费的、易操作的监控 MongoDB 的方式。要使用它,先在 http://mms.10gen.com. 创建一个账号。
查看 http://mms.10gen.com/help 以获得更多的文档。
简单规则
数据库
数据库的名称不能包含 ".","$","\0"(空字符)。名称只能包含在你的文件系统中可以用做文件名的字符。Admin,config,local是数据库的保留名(你可以在其中保存数据,单永远不要删除它们)。
另一个强大的选项是 post-commit 钩子。钩子将在提交到库时被触发。这是比周期构建或 Poll SCM 选项更高效的方法。
集合
集合名不能含有 "$" 或 "\0"。前缀为 "system." 的名字为 MongoDB 的保留集合,不能删除(哪怕是你创建的)。“点”经常被用于集合名称的组织,但它们没有语义。名为“che.se”的集合跟名为“che”的集合以及名为“cheese”的集合没有任何关联。
字段名
字段名不能含有 "." 或 "\0"。当字段为数据库引用时,它应当只含有"$"。
索引选项
background在后台建立索引,同时可数据库可读写unique每个键的值都是唯一的。sparse不索引不存在的值。轻松索引文档中的唯一字段,而没有该字段的文档不参与索引。expireAfterSeconds设定集合的生存时间。dropDups当创建唯一索引时,遭遇重复则删除,而非报错。注意,这个选项将删除有重复值的文档。查询格式
查询语句通常为一下格式:
{key : {$op : value}}
例如:
{age : {$gte : 18}}
有三个例外的规则: $and, $or, 和 $nor,此三者优先级最高:
{$or : [{age: {$gte : 18}}, {age : {$lt : 18},parentalConsent:true}}]}
更新格式
更新语句总是如下格式:
{key : {$mod : value}}
例如:
{age : {$inc : 1}}
查询操作符
- √: 匹配
- x: 不匹配
x {numSold: "hello"}
x {x : 1}$in, $nin{age : {$in : [10, 14,
21]}}√ {age: 21}
√ {age: [9, 10, 11]}
x {age: 9}$all{hand : {$all :
["10","J","Q","K","A"]}}√ {hand: ["7", "8", "9",
"10", "J", "Q", "K", "A"]}
x {hand:["J","Q","K"]}$not{name : {$not : /jon/i}}√ {name: "Jon"}
x {name: "John"}$mod{age : {$mod : [10, 0]}}√ {age: 50}
x {age: 42}$exists{phone: {$exists: true}}√ {phone: "555-555-
5555"}
x {phones: ["555-555-
5555", "1-800-555-
5555"]}$type*{age : {$type : 2}}√ {age : "42"}
x {age : 42}$size{"top-three":{$size:3}}√ {"top-three":["gold","s
ilver","bronze"]}
x {"top-three":["blue
ribbon"]}
*参见 http://www.mongodb.org/display/DOCS/Advanced+Queries 获取全部类型。
更新修饰符
"ip3"} {blacklist:
"ip1","ip3"}$pop{queue:["1pm","3pm","8pm"]}{$pop:{queue:-‐1}}{queue:["3pm","8pm"]}$addToSet,$each{ints:[0,1,3,4]}{$addToSet:{ints:{
$each:[1,2,3]}}}{ints:[0,1,2,3,4]}$rename{nmae:"sam"}{$rename:{nmae:"name"}}{name:"sam"}$bit{permission:6}{$bit:{permissions:{or:1}}}{permission:7}
聚合管道操作符
聚合框架可以用来做任何事情,从简单的查询语句到复杂的聚合查询。
使用聚合框架,将聚合操作符通过管道传递给 aggregate() 函数:
> db.collection.aggregate({$match:{x:1}},... {$limit:10},... {$group:{_id : "$age"}})
下面是可用操作符的列表:
要引用一个字段,使用 $fieldName 语句。例如,下面的映射将返回一个重新命名为“time since epoch ” 的原存在的“$time”字段:
{$project: {"time since epoch": "$time"}}
$project 和 $group 不能同时表达,你可以用 $fieldName 语句,如下:
$add : ["$doesExist", 1]]若 mightExist 不为空,则返回 mightExist 的值,否则返回第二个表达式的结果。$cond : [exp1, exp2, exp3]如果 exp1 结果为真,返回 exp2的结果,否则返回 exp2的结果。
备份
当状态一致时(备份时没有发生读写操作),最好的备份方式就是把数据库文件拷贝一份。
- 使用fsync+lock命令。这个命令将所有的写操作强制写入磁盘,并且阻止了新的写入。> db.fsyncLock()
- 把数据库文件拷贝到本地一个新路径下
- 使用unlock命令解锁数据库。> db.fsyncUnlock()
恢复备份的方法是拷贝文件到正确的服务器路径下,重启。
如果你有一个文件系统来做文件系统快照,你的日志在同样的卷标下,并且做了RAID共享存储,你可以使用一个无锁的快照做处理。既然这样,当你重启时,日志就能同步来保持始终一致性。
在特殊情况下可以使用Mongodump做备份。如果你决定使用它,首先不要使用fsync+lock。
副本集维护
活跃节点成员的保持
停止一个活跃节点的方法是把他的优先级调为0:
> var config = rs.config()> config.members[2].priority = 0> rs.reconfig(config)
阻止从节点成为临时活跃节点的方法是连接到它发送一条冻结命令:
> rs.freeze(10*60) // # of seconds to not become primary
如果你不想永久的改变优先级只是暂时做维护工作,这个方法是非常方便的.
成员的降级
如果一个成员当前是活跃节点,你可以通过下面的方式对它降级:
> rs.stepDown(10*60) // # of seconds to not try to become primaryagain
以独立服务器的方式启动一个成员
为了维护,你通常需要启动一个从节点并且确保它可写(比如,建索引),为了达到这个目的你需要把从节点作为一个临时独立的mongod.
如果从节点初始启动使用下面的参数:
$ mongod --dbpath /data/db --replSet setName --port 30000
关闭清除后使用下面配置重启:
$ mongod --dbpath /data/db --port 30001
注意dbpath没有改变,但是端口改变了,replSet设置也被移除了。这个mongod将作为一个单独的服务启动,其余的副本集将通过30000端口查找成员,而不是30001,因此看起来他只是把其余的副本集降级了.
当你维护完成了,使用初始的参数设置并重启就ok了.
更多资源
- MongoDB 下载http://www.mongodb.org/downloads
- 文档 http://docs.mongodb.org
- 里程碑、修改的问题、添加功能http://jira.mongodb.org
- 问题: http://groups.google.com/group/mongodb-user
- IRC chat聊天,能及时得到问题答案:irc.freenode.net/#mongodb
- 支持海量数据的 MongoDB NoSQL
- 海量数据的分布式部署 和 Nosql
- MongoDB数据库的海量数据存储应用
- nosql 海量数据存储 架构选择
- [转]MongoDB:拥有 RDBMS 特性的 NoSQL 数据存储
- [转]MongoDB:拥有 RDBMS 特性的 NoSQL 数据存储
- mongodb, redis, hbase三种nosql数据的对比
- 海量数据的设计 第一课--大数据时代(NoSQL)
- 浅析MongoDB数据库的海量数据存储应用
- 浅析MongoDB数据库的海量数据存储应用
- 浅析MongoDB数据库的海量数据存储应用
- 浅析MongoDB数据库的海量数据存储应用
- (弥补关系数据库的不足,处理海量数据利器)NoSQL运动全解析
- 基于云上分布式NoSQL的海量气象数据存储和查询方案
- 基于云上分布式NoSQL的海量气象数据存储和查询方案
- 基于云上分布式NoSQL的海量气象数据存储和查询方案
- 【NOSQL】非关系型数据库MongoDB ( 用MongoDB的文档结构描述数据关系 )
- NoSQL-- mongodb 的安装使用
- <meta name="format-detection"/> 的用处
- pushd 寻找系统路径;php调用exe文件
- 大数
- jquery live()重复绑定的解决办法
- mac git auto-completion
- 支持海量数据的 MongoDB NoSQL
- 关于网络编程时候SIGPIPE信号
- 删除memcache值 flush memcached
- 服务器最小化安装centos6.3系统后,网卡接口变成em1-em4
- 以春叩开国画艺术大门-华夏互联2011春游记
- 在cmd环境下输出的中文字为乱码时时,只要将文件格式设置为ANSI编码就可以了
- 重新理清产品、项目和人
- 在windows 下为什么可以使用 sqlplus / as sysdba 进入到oracle中。
- php中使用exec,system等函数调用系统命令