HPPCChina会议全记录整理

来源：互联网发布：fc2域名编辑：程序博客网时间：2024/04/28 08:37

说明：将自己在会议期间的一些摘抄整理出来，主要是一些提纲性的内容或者要点，可能存在不准确的地方或者记录有误的地方；另外最后一部分是我的会议总结，由于有了前面的内容，所以就写的很抽象或者说比较虚，仅供大家参考。

一、大会报告系列

报告一：陈国良从单一编程模型到分层编程模型

1、模型要包括下面几个内容：

² 机器参数

² 描述计算行为

² 评价算法复杂度函数

注意：模型需要平衡反映体系结构细节与用户使用复杂度两个方面。

2、单一编程模型发展介绍

（1）单一SMP：计算、通信、存储一体=》互联SMP：

（2）分布式存储：

3、分层计算模型

（1）并行算法设计模型

n 反映硬件特性；

n 易于算法形式化描述；

n 用算法步骤评价复杂度；

（2）并行程序设计模型

n 表达任务并行；

n 表达数据并行；

n 通信、同步；

n 线程；

（3）并行程序执行模型

n 用指令条数、运行时间进行评价；

n 性能优化；

注：从优化性能凯斯，结合具体编程编程模型开始，结合具体编程模型（openMP、MPI），考虑体系结构、应用开发经验与性能优化。相关论文在中国科大学报上。

报告二：杨学军存储墙问题

1、为什么会存在

² 处理器引脚因素：个数有限；数据传输速度有限；

² 访存90ns VS 处理器0.3ns；

² 节点间通信2000ns VS 访存90ns；

2、体系结构方面

² 集中式cache：硬件管理、容量有限（现在的Intel处理器）

² 分布式cache：软件、硬件配合管理

² 便签式cache：软件管理

² 流寄存器：纯软件管理，随机访问困难

3、数据访问特征

依赖性：

一致性：

相似性：

重用性：

亲和性：

生存性：

4、关于超级计算机，展望新技术

光互连技术：

3D芯片封装技术：

报告三：张云泉

1、天河一号

异构，采用了AMD的GPU芯片，峰值达到P级，linpack实测达到563.1TFlops。

报告四：Bill Dally

1) 数据局部性；

2) 指令级并行已到尽头；

3) 显式并行更好；

4) Efficiency == Locality

5) Performance == parallism

6) 单线程性能扩展受限èmany core

7) Explicit storagehierarchy->manage data move

8) Many efficient processors

9) Programming system abstractthem

Intel 专场

1、从能耗角度

1) */+操作： 200pj

2) Read from cache：800pj

3) Move across chip：2000pj

4) Execution one instruction：7500pj

5) Read from Dram：12000pj

2、 Programming model

1) Task：TBD, Cilk

2) Loop：OpenMP

3) Data：Ct

4) Threads：pthread

5) Serial：paralisms

注：

² Ct是显式并行；动态编译、激进并行、向量化；虚拟机执行；

² 两次编译：

1） gcc/icc产生Ct代码，

2）经过JIT产生code，然后调用parallel runtime

² 利用kernel与intrinsic

报告五：陈德辉高性能计算机技术对数值天气预报发展的支撑作用

1、

Top500

1、几个以前不知道内容

1）超级计算机数量从多往少：HP，IBM，Cray，Dell，SGI，SUN

2）2018年，大约达到600MFlops/Watt，2015年会有1Tflops的note book

3）linpack测试时间会是个问题，需要几周？然而全机器无故障时间却在1小时以下，无法进行linpack测试？在德国汉堡会议之后，也许会修改linpack。

报告六：袁国兴开发、研制自主知识产权的高性能计算机软件

1、

1）建模

2）问题离散化：偏微分方程，边界条件离散化，转换为数值计算

3）并行算法、舍入误差（一年写一个程序）

4）编程

2、美国计划在2030年解决高性能软件问题，基于科学的物理建模，物理现象与基本原理连接起来，用数值模拟代替核试验。

报告七：孙凝晖中国如何应对E级计算竞争

1、十大挑战

描述：notebook： 2015年 1T；2020年 10Tflops

1）技术周期：10年-20年；

天河一号：计算功耗比千万亿次/10MW；

性能提高1000倍，功耗只提高10倍；

从系统结构方向降低功耗；

2）超大规模并行：并行算法至关重要

3）市场：扩大用户

4）应用：有足够价值的E级应用

5）容错：硬件，OS，算法（超级计算机无错运行时间不会超过一小时）

6）依赖的器件革命何时发生：光互连，封装技术15nm以内，3D封装，新存储体

7）依赖于新编程语言的革命

8）与新尖应用的关系：互联网服务，云计算

9）高性能应用软件产业：市场机会

10）同质化平台：

2、2020年技术报告

1）单片，千核，百瓦，10T级

2）亿级

3）核间网络互联

报告八：漆锋滨 E级计算机的挑战与对策神威计算机江南所

1、

1） 94年：讨论P级=》2008年实现

2007年：讨论E级=》大约在2018年实现

2）who need 用户

3）now：multi-core=>many-core

英伟达：到2020年达到20T; Intel 10T

5万-10万处理器数级别，神威计算机曾经达到过6万处理器；（神舟、神威、神光）

4）what problems

功耗：美国现在大约7.5%电力，将来会耗电2.5%，E级计算能力功耗在50MW-100MW。

存储：100-150 PB， 0.1-0.5 存储/计算比

带宽：2EB/s，20TB/s 单处理器

分带宽：网络带宽？，1EB/s，电互联=>光互连

可靠性：全系统无故障运行时间<1小时

Linpck：大约要跑十天，但是只能无故障运行1小时，所以可能都无法完成linpck测试。

并行扩展性问题：

I/O问题：

亿级并行：

5）how to resolve

3D封装技术：片内50GB Dram，2000多个核；

SIMD，多线程，智能cache；

光互联：提高250倍带宽，功耗下降10倍；

冷却技术：打孔水冷（水会穿过芯片）；

系统管理：分布式；

编程模型：增量，局部性

报告九：卢凯（很年轻，国防科大）E级系统的可靠性设计与挑战

存储失效：

系统失效：

一致性系统：

二、论文报告

论文1：九所（应用物理与数学研究所）邓力核实验数值模拟

1）背景介绍：

蒙特卡罗程序：最初从美国引进，后来美国禁止该程序出口，所以目前的MPI并行版由九所自己开发。

2）算法内容

粒子数问题：

（1）外源问题：MCNP解决积分问题，1个粒子100多次计算，

（2）迭代计算——>MPI Broadcast——>中子产生——>中子消失（微分到积分）

（3）临界问题：中子代之间的信息，中子的下一代依赖于上一代；超临界问题（核武器）；迭代计算；

（4）随机数问题：分段（问题规模降低，串行并行一致）=》长周期随机数；

（5）基准测试程序：网格模型测试 I/O加速比；

2、目前的并行版本与美国版本的对比

1）特点

MCNP-5：隐藏并行（美国版，各个模块被集成，无法看到内部代码）

32768个处理器，银河V，300多倍加速；

线性加速比（30度-40度）

2）未来

中国准备开发自己的MCMG，即定态多群中子光子耦合运行程序

3）现在工作：

正在向GPU转移；为什么可以用在GPU上呢？原因如下：

同步性好；

数据独立；

负载平衡；

4）对超级计算机的需求无止境

目前只计算10亿个粒子，将来会用到10的23次方个粒子，所以说对计算机资源的需求还是有的。

三、关于应用的一点总结：

1、生命科学方面

1）分子动力学

2）基因排序

3）蛋白质折叠

4）计算化学

2、工程科学方面

1）CAD CAM CAE：

2）天体物理：

3）CFD（流体力学）

4）Mathematics，Labview

3、政府国防方面

武器，图像处理，战地模拟

4、医疗方面

MRI，CT，影像辅助治疗

5、石油石化方面

1）地震资料处理

2）油藏模拟（有公司专门提供在GPU集群上的此类计算服务）

6、金融方面：

风险分析，衍生性金融商品模拟，交易算法

6、可视化方面：渲染

7、电子设计自动化：EDA，SPICE，Verilog， 3DEM

具体的一些应用举例：

1、分子动力学：NAMD/VMD的纳米孔（nanopore）算例，基于charm++并行支持库，charm run软件进行任务分发（NAMD2为namd的MPI版本）

2、天体物理学：N-body问题

3、Matlab：gfx_raindrop_example(实时雨滴仿真)

gfx_vortex_example（涡流模拟）

fdtd_example（电磁学核地质学应用）

filter2_example（图像处理系统）

pi_example（圆周率计算）

fft_example

四、我的总结

通过参加HPCChina2009会议，对超级计算机硬件平台发展面临的机遇、挑战以及超级计算机上的应用方面面临的问题。

随着中国经济的不断进步以及国家重大专项的开展、科研单位的技术水平的发展，对超级计算机的需求不断提高。例如大飞机项目，新型战斗机研制等对超级计算资源的需求不断增加。

曙光在2010年会推出峰值达到1P的超级计算机，会上专家们的一致共识是大约在2017年左右会出现具有E级计算能力的超级计算机，但是依照目前的技术，E级超级计算机的功耗、存储、可靠性等方面面临很大挑战，如何应对这些挑战，大家探讨了一些可能解决这些问题的技术，例如光互联、3D封装、芯片水冷技术等。

目前，随着曙光5000以及天河一号的出现，中国已经有了接近P级的超级计算机，但是与此同时能够有效利用这些计算能力的应用滞后于硬件平台的进步。所以，如何开发出能够充分利用P级计算能力的应用成为大家关注的焦点。陈国良院士从编程模型的改变角度来探讨应用的开发，另外陈德辉老师、袁国兴老师都介绍了应用开发方面的情况。

另外，在小组论文讨论会上，向参会人员介绍了我们关于POM的工作，并与大家进行了讨论。并同与会的一些专家就自己关系的问题进行了讨论交流，主要包括与Intel的吴甘沙讨论Ct以及并行编程模型方面的问题，并就runtime优化方面进行了探讨，与九所、西北工业大学的一些研究人员讨论了应用开发问题等。

通过参加HPCChina2009会议，对超级计算领域的一些问题，例如超级计算机硬件平台面临的挑战，如何写出有效利用计算资源的应用这些问题有了更深刻的印象，同时，也激发了对目前工作的思考，即从哪些方面考虑我们正在进行统一编程模型的设计开发工作，例如如何评价编程模型的易编程性、性能；如何挖掘出需求等问题；如何优化模型的性能。

2009-10-29参加会议

2009-11-14整理

HPPCChina会议全记录 整理

HPPCChina会议全记录整理