ASPLOS2017 Day 1

来源：互联网发布：小蓓网络编辑：程序博客网时间：2024/05/19 20:43

ASPLOS 2017 in Xi’an - Day 1

简介

很庆幸在古长安-西安举办2017年的ASPLOS，很感谢导师李超特别副研究员资助我们师姐弟四人参加这次体系结构盛大会议。西安，作为世界四大古都之一，曾经作为中国首都和政治、文化。经济中心长达1100年。本次ASPLOS会议组带我们体验了秦始皇兵马俑的壮观，欣赏了玄宗与贵妃的凄美爱情故事。

长恨歌表演

华清池

论文简介

本次大会收到320篇论文投稿，被接收论文56篇，这已经是接收数量最高的一年，去年是53篇，前年只有48篇。
本年度ASPLOS共评出两篇 Best Papers:
1. Black-box Concurrent Data Structures for NUMA Architectures, Irina Calciu (VMware Research Group); Siddhartha Sen (Microsoft Research); Mahesh Balakrishnan (Yale University); Marcos K. Auguilera (VMware Research Group)

2. Determining Application-specific Peak Power and Energy Requirements for Ultra-low-power Processors, Hari Cherupalli (University of Minnesota); Henry Duwe (University of Illinois); Weidong Ye (University of Illinois); Rakesh Kumar (University of Illinois); John Sartori (University of Minnesota)

如果分别用一句话概括，第2篇文章分析和决定低功耗处理器application级的peak power（尖峰功率）。

Sessions

Session 1: Highlight I
1. Determining Application-specific Peak Power and Energy Requirements for Ultra-low-power Processor

这篇文章是 University of Minnesota大学的Hari Cherupalli 的作品，Hari已经毕业了，所以由其博士二年级的师弟Henry Duwe做的presentation。这篇文章是2篇 Best Papers之一。
这篇文章主要提出了一种可以自动测量低功耗处理器（Ultra-Low-Power Processor）peak power的方法。相比传统的ULP peak power 设置方法，本文的方法可以在application层更加细粒度的决定ULP的 peak power，使得系统的成本等相关因子最优。
动机：与server或者PC不同，ULP系统往往只是处理的单一的application，因此ULP系统的功率和电能资源需求往往是和其application相关；传统决定系统供电功率和能源的方法都并不是从应用角度出发的；因此本文从application角度讨论如何为ULP提供更为精准的power supply。

本文主要通过对application进行数据无关的电路门行为分析、功率和能耗的分析来计算peak power：
基于application的peak power计算方式
个人观点：虽然本文属于处理器功率问题研究，但是本文的亮点在于从更细粒度的角度来对待系统功率和能源消耗。本文工作很细致，善于从不同角度分析问题。然而我对本文还是有一点疑虑: 本文不是很细致描述计算出peak power之后如何改变系统的供电功率，是实时的还是静态的？在我和Herny Duwe聊的时候，他似乎是说是通过控制电流来实时控制的。

2. Prophet: Precise QoS Prediction on Non-Preemptive Accelerators to Improve Utilization in Warehouse Scale Computers

这篇文章是由上交年轻有为的陈全老师以及我的偶像Jason Mars合作完成。陈全老师作为上交计算机系主任的大弟子，科研水平相当高，已经在很多相关领域顶会上发了很多文章。他曾经在Jason Mars的实验室交流过，因此应该和Jason Mars有着浓烈的师生情。

当然，这篇文章并没有脱离陈全老师以及Jason Mars最近几年研究服务器上共存应用的tail latency工作，但是这篇文章的目的却是避免/减轻在加速器上共享应用对latency关键应用的影响。

本文首先通过对实际系统的加速器进行性能和冲突分析，发现与服务器不同的是，加速器主要的冲突是在竞争处理单元、加速器内存带宽以及PCIe带宽，而不是cache和主存带宽，因此提出Prophet通过对共存应用该三点冲突的分析对应用的运行状态进行整合，对于没有冲突的部分，让应用一起运行；对于有冲突的部分，让latency关键的应用单独运行。

个人观点：这篇文章不愧是Jason Mars的文章，不论内容还是写作风格都和他之前的文章保持一致。文章的角度是新的，开始考虑加速器的latency，但是解决方法和之前的却是差不多，都是在冲突的时候将QoS关键任务出来单独执行。

3. Mallacc: Accelerating Memory Allocation
这篇文章是由哈佛大学博一的学生Svilen Kanev完成，博一啊博一！！！！额，应该是博士刚毕业？哎，没看懂。不过他的导师是David Brooks！！！！体系结构元老级的人物，是所在实验室大老板的boss！！！！

这篇文章的主要实现了一个动态内存分配的加速器， Mallac。

与传统加速器不同，Mallacc主要目的是减少内存分配延迟而不是提升系统输出量，因此Mallacc主要针对动态内存分配的三个关键步骤进行加速。这三个步骤分别是：分配大小计算、检索空闲内存区域以及抽样内存使用。

个人观点：由于能力有限，这篇文章我没太听懂，感兴趣的同志们可以仔细阅读文章。

1 0