曙光并行机

来源:互联网 发布:长征五号失败 知乎 编辑:程序博客网 时间:2024/05/17 04:45

这是一个忙碌的假期,我喜欢这种感觉────每天很充实而有所得。

      实验室买了一个曙光的并行机,11个节点。

      最上面四个是胖节点,每个都是八路SMP架构,每个节点32个的核(8个物理CPU),每个cpu 2G内存,理论计算峰值约1024GFLOPS。

      接下来是四个GPU结点,每个节点是两个四核CPU,一个Tesla C1060 GPU,4G显存,其中cpu计算峰值约256GFLOPS,GPU理论精度浮点运算能力是933GFLOPS,双精度78GFLOPS。计算方法:CPU:主频×处理器数×4,GPU:主频×流处理器数×3.其中4和3是每时钟周期处理的指令数。

      然后是登录结点,除显卡外,跟GPU节点一样的配置,主要用于用户登录。

      管理结点,用于机群系统管理,其实很少会用得到,因为作业调试在11号,软件都装在阵列中,主要作用就是连接了存储。

      作业提交节点,主要用于提交作业,装有GridView软件,这个软件很少用,一般用命令行就交作业了。

      磁盘阵列,16T,两两做了冗余,可用约8T。

     阵列与10号用光纤通信,节点之间有两条通信线路,一个用于计算的infinband,一个用于普通控制与通信的千兆网。所有节点系统为SUSE 10.2 企业版。

     几天下来,跟着曙光的工作人员,看他们装硬件和软件,偷学了点东西 ,嘻嘻。现在想起来,这些东西其实不算太难(也许是我外行没看到内部的高深)。感觉照着手册一步步做就是了,只是有时侯碰到了问题要想半天。特别是用IB网计算,有些东西我现在也不知道要怎么弄,真想跟着他们去公司实习下。

    本来想写点总结,可开始写的时侯发现一些细节全不记得,只知道一些基本流程:硬件组装──>阵列驱动──>装样板机──>装gridview──>做镜像并安装其它结点──>安装并行软件环境,如MPI,──>安装作业调试系统,我们用的是torque+maui──>安装数学包准备做linpack测试──>测试达到理论70%以上峰值,差不多可以等验收了。

      其实中间还是有蛮多细节的,特别是一些软件的安装与环境配置。还是要再看看资料,认真复习下才记得住,最好希望能有地方实践下。

原创粉丝点击