希望大牛讨论树状数据如何选择数据库和设计存储格式

来源：互联网发布：社会活动家知乎编辑：程序博客网时间：2024/06/05 09:24

先上一张图：

解释：上图为一棵树形的数据结构，思想为采集50000台机器的性能数据，每5分钟采集一次，存储两年（两年后数据才可以被删除，所以有730天），每台机器有一个ip地址（50000个机器就有50000个ip地址），多个端口（比如交换机就有：eth0,eth1,...），每个端口采集16个性能数据（收包数量，发包数量，错误包数量...等，也就是图中的key），每个key对应288个value（因为每5分钟采集一次，一天一个key就有288条value。）

我的初步设想是用NOsql来存储这些数据，把日期（就是树的第一层）设计为集合。ip地址（第二层）设计为文档。采用mongodb，端口以及后面的（第三层以及后面的层）设计成子文档。这样当采集一条数据回来时，就按照树形查找，有则插入数据，无则在路途中添加没有的树枝条。

例如：来了一条数据：2013-5-8. 192.168.10.1. eth0. key1. value4就将value4插入value3下方。

又来了一条数据：2013-5-8. 192.168.10.1.eth1. key1. value1就在eth0下方新生一个eth1枝条，继续添加数据。

但是mongodb的子文档插入（首先要查询待插入的子文档）带有一定的重复性。

对于上述的需求怎么选择一个合理的数据库（可随意选择数据库）和设计存储格式呢？

ip地址是可添加的（可能过几天又有新的ip地址需要采集），端口也是不定的（有的机器端口多，有的端口少）

望大家讨论出主意。。。

希望大牛讨论 树状数据如何选择数据库和设计存储格式

希望大牛讨论树状数据如何选择数据库和设计存储格式