基因数据库导入mongodb完成,庆祝一下

来源:互联网 发布:800万淘宝卖家 编辑:程序博客网 时间:2024/04/30 00:17

基因数据库genbank的导入工作终于算是告一段落了,下一步的工作将是,物种别名信息的处理。


整个mongodb数据库平台分布在8个服务器节点上,复制集采用三个备份。

由于基因数据库数据量比较大,在导入的过程中碰到了一些问题:


(1)数据插入过程中,服务器负载很高。期间一个服务器的硬盘挂掉了,由于没有做raid,导致数据丢失


(2)启动mongod进程的过程中,没有添加numactl --interleave=all 参数,导致期间出现过一些奇怪的问题


(3)mongodb各个分片之间不定期的会进行自动的rebalance,导致性能很低下。后边数据插入的过程中,将自动rebalance禁用掉了,情况好了很多。


(4)mongodb占用过多内存,导致一些服务器上的其他服务异常退出,OOM


(5)单个文档的大小超过16M的限制


目前整个基因数据库的情况如下:

数据大小:1235GB

纪录条数:160996079


原创粉丝点击