阿里如何利用MongoDB 实现高性能大数据处理

来源：互联网发布：多功能助手软件编辑：程序博客网时间：2024/06/06 20:52

概述

MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。

MongoDB 是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。他支持的数据结构非常松散，是类似json的bson格式，因此可以存储比较复杂的数据类型。Mongo最大的特点是他支持的查询语言非常强大，其语法有点类似于面向对象的查询语言，几乎可以实现类似关系数据库单表查询的绝大部分功能，而且还支持对数据建立索引。

前言

考虑这样一个场景，有个数据量有10多亿数据的设备库，里面存放了注册的设备的信息，并且设备数据还可能会递增，然后业务集群需要对指定条件的设备群发信息，那么如何才能高效的来处理这个问题那？

思考

离线分析

为了不影响在线业务，以往需要把一份数据进行多次复制来分别进行业务交易和数据分析的问题，也就是业务交易的数据是在原来的库，而数据分析是通过手段把原来库数据定时同步到另外的存储设备离线分析。上面所说消息群发设备就可以使用这种方式，首先全量把数据同步到另外的存储设备，然后在定时把原来库里面的新数据增量到存储设备。

离线库

阿里云产品mondb介绍

对于存储设备可以选择阿里云产品MongoDB，原因是MongoDB 分片集群（Sharded Cluster）通过将数据分散存储到多个分片（Shard）上来实现高可扩展性。实现分片集群时，MongoDB 引入 Config Server 来存储集群的元数据，引入 mongos 作为应用访问的入口，mongos 从 Config Server 读取路由信息，并将请求路由到后端对应的 Shard 上。下面看下原理图

用户访问 mongos 跟访问单个 mongod 类似；
所有 mongos 是对等关系，用户访问分片集群可通过任意一个或多个mongos；
mongos 本身是无状态的，可任意扩展，集群的服务能力为“Shard服务能力之和”与“mongos服务能力之和”的最小值；
访问分片集群时，最好将应用负载均匀的分散到多个 mongos 上。

Sharding Cluster使得集合数据被分散到多个Shard存储，也就是每个shard存放整体数据的一部分

如何正确地连接分片集群？

所有官方的 MongoDB driver 都支持以 Connection String 的方式来连接 MongoDB 分片集群。

下面就是 Connection String 包含的主要内容：

mongodb://[username:password@]host1[:port1][,host2[:port2],…[,hostN[:portN]]][/[database][?options]]

mongodb:// 前缀，代表这是一个Connection String；
username:password@ 如果启用了鉴权，需要指定用户密码；
hostX:portX多个 mongos 的地址列表；
/database鉴权时，用户帐号所属的数据库；
?options 指定额外的连接选项。

java 代码访问

通过 java 来连接的示例代码如下所示：

MongoClientURI connectionString = new MongoClientURI("mongodb://:****@s-m5e80a9241323604.mongodb.rds.aliyuncs.com:3717,s-m5e053215007f404.mongodb.rds.aliyuncs.com:3717/admin"); // ****替换为root密码

MongoClient client = new MongoClient(connectionString);

MongoDatabase database = client.getDatabase("mydb");

MongoCollection<Document> collection = database.getCollection("mycoll");

通过上述方式连接分片集群时，客户端会自动将请求分散到多个 mongos 上，以实现负载均衡；同时，当 URI 里 mongos 数量在2个及以上时，当有 mongos 故障时，客户端能自动进行 failover，将请求都分散到状态正常的 mongos 上。

好吧，言归正传，上面知道大数据最后会被分散到不同的shard上，而我们的应用系统是集群，如果能让集群每台机器分摊不同shard上的数据进行处理，那么性能肯定杠杠的，可以吗？答案是必须的。

mongb上有个config.shards，config.shards集合存储各个Shard的信息，可通过addShard、removeShard命令来动态的从Sharded cluster里增加或移除shard。

mongos> db.shards.find()

{ "_id" : "mongo-9003", "host" : "mongo-9003/10.1.72.135:9003,10.1.71.136:9003,10.1.72.137:9003" }

{ "_id" : "mongo-9004", "host" : "mongo-9004/10.1.72.135:9004,10.1.71.136:9004,10.1.72.137:9004" }

通过config.shards可以获取所以分片shard的地址然后替换上面的url中host，就可以让集群系统里不同机器直接访问shard上的数据。

试用场景

MongoDB 的主要目标是在键/值存储方式（提供了高性能和高度伸缩性）和传统的RDBMS 系统（具有丰富的功能）之间架起一座桥梁，它集两者的优势于一身。根据官方网站的描述，Mongo 适用于以下场景。

● 网站数据：Mongo 非常适合实时的插入，更新与查询，并具备网站实时数据存储所需的复制及高度伸缩性。

● 缓存：由于性能很高，Mongo 也适合作为信息基础设施的缓存层。在系统重启之后，由Mongo 搭建的持久化缓存层可以避免下层的数据源过载。

● 大尺寸、低价值的数据：使用传统的关系型数据库存储一些数据时可能会比较昂贵，在此之前，很多时候程序员往往会选择传统的文件进行存储。

● 高伸缩性的场景：Mongo 非常适合由数十或数百台服务器组成的数据库，Mongo 的路线图中已经包含对MapReduce 引擎的内置支持。

● 用于对象及JSON 数据的存储：Mongo 的BSON 数据格式非常适合文档化格式的存储及查询。

MongoDB 的使用也会有一些限制，例如，它不适合于以下几个地方。

● 高度事务性的系统：例如，银行或会计系统。传统的关系型数据库目前还是更适用于需要大量原子性复杂事务的应用程序。

● 传统的商业智能应用：针对特定问题的BI 数据库会产生高度优化的查询方式。对于此类应用，数据仓库可能是更合适的选择。

● 需要SQL 的问题。

总结

使用mongdb的分片机器可以使应用集群中每台机器去访问分片机器每个shard上面的数据，从而实现并发处理大数据

大型网站架构技术

程序员修炼之道

大型web系统数据缓存设计

基于 Redis 实现分布式应用限流

Cache缓存技术全面解析

京东到家库存系统分析

Nginx 缓存引发的跨域惨案

浅谈Dubbo服务框架

数据库中间件架构 | 架构师之路

MySQL优化精髓

看完本文有收获？请转发分享给更多人

欢迎关注“畅聊架构”，我们分享最有价值的互联网技术干货文章，助力您成为有思想的全栈架构师，我们只聊互联网、只聊架构！打造最有价值的架构师圈子和社区。

长按下方的二维码可以快速关注我们

阅读全文

0 0