mogileFS的工作方式(译)

来源：互联网发布：我的淘宝登陆页面编辑：程序博客网时间：2024/06/05 11:57

下面简要阐述 MogileFS 是怎么工作的.

mogileFS由如下一些部分构成:

Application: 想要保存/加载文件的应用
Tracker (the mogilefsd process): 基于事件的(event-based) 父进程/消息总线来管理所有来之于客户端应用的交互(requesting operations to be performed), 包括将请求负载平衡到 “query workers” 中，让mogilefsd的子进程去处理. 你可以在不同的机器上运行两个Tracker, 为了高可用性, 或使用更多的Tracker为了负载平衡(你需要运行多于两个的Tracker). mogilefsd的子进程有:
- Replication — 个机器间复制文件
- Deletion — 从命名空间删除是立即的，从文件系统删除是异步的
- Query — 响应客户端的请求
- Reaper — 在磁盘失败后将文件复制请求重新放到队列中
- Monitor — 监测主机和设配的健康度和状态
- …
Database — 数据库用来存放MogileFS的元数据 (命名空间, 和文件在哪里). 这应该设置一个高可用性(HA)的环境以防止单点失败.
Storage Nodes — 实际文件存放的地方. 存储节点是一个HTTP服务器，用来做删除，存放等事情，任何WebDAV服务器都可以, 不过推荐使用 mogstored 。 mogilefsd 可以配置到两个机器上使用不同端口… mogstored 为所有 DAV 操作 (和流量监测), 并且你自己选择的快速的HTTP服务器用来做 GET 操作(给客户端提供文件). 典型的用户没一个加载点有一个大容量的 SATA 磁盘，他们被加载到 /var/mogdata/devNN.

High-level 流程:

应用程序请求打开一个文件 (通过RPC 通知到 tracker, 找到一个可用的机器). 做一个 “create_open” 请求.
tracker 做一些负载均衡(load balancing)处理，决定应该去哪儿，然后给应用程序一些可能用的位置。
应用程序写到其中的一个位置去 (如果写失败，他会重新尝试并写到另外一个位置去）.
应用程序 (client) 通过”create_close” 告诉tracker文件写到哪里去了.
tracker 将该名称和域命的名空间关联 (通过数据库来做的)
tracker, 在后台, 开始复制文件，知道他满足该文件类别设定的复制规则
然后,应用程序通过 “get_paths” 请求 domain+key (key == “filename”) 文件, tracker基于每一位置的I/O繁忙情况回复(在内部经过 database/memcache/etc 等的一些抉择处理), 该文件可用的完整 URLs地址列表.
应用程序然后按顺序尝试这些URL地址. (tracker’持续监测主机和设备的状态，因此不会返回死连接,默认情况下他对返回列表中的第一个元素做双重检查，除非你不要他这么做..)