单机近300万TPM!你的服务器够“酷”不?

来源:互联网 发布:kiel 软件 编辑:程序博客网 时间:2024/05/02 00:12

企事录实验室最近刷新了一项测试记录,基于Dell 14G服务器主力PowerEdge R740xd平台,构建的Oracle数据库性能突破了200万TPM,平均TPM达到240万,峰值TPM超过270万,逼近300万。仅凭一台双路服务器,要获得如此高的性能,是很难得的。

每秒在线事务处理量(TPS)峰值超过5万,峰值TPM(每分钟在线事务处理量)逼近300万,而平均响应时间仅为3ms,各项曲线都非常平滑,意味着整个Oracle数据库平台运行平稳。

需要说明的是,这台R740xd配备了384GB DDR4-2666内存,为了避免大内存容量造成Oracle数据库性能“虚高”,企事录实验室特意调小了Oracle可用的内存容量(SGA约为64GB),从上图的“Disk IO”曲线也可看出,这是Oracle数据库落(SSD)盘后的性能,Disk IO中有两种颜色的曲线,其中橙棕色表示读IO,深蓝色表示写IO,读写比例约为3:1。

对于以Oracle数据库为代表的关键业务应用而言,性能高且平稳保持,必须要满足两大条件:

  • 首当其冲的是存储性能要好。NVMe SSD的出现使得存储性能大幅提升,提供了满足数据库类关键业务应用所需的性能;

  • NVMe SSD的应用,使得整个系统的瓶颈由原来的存储转向了计算,对服务器的性能提出了更高的要求——在线事务处理(OLTP)类的数据库通常都是重负载应用。

企事录实验室曾利用NVMe SSD在四路服务器,或者多台(四路)服务器组成的Oracle RAC环境中,获得过更高的Oracle数据库性能。但在双路至强(Xeon)服务器上,却很难突破200万TPM,即便使用的是相同的NVMe SSD,其原因就在于服务器的计算性能终归有限,之前的双路处理器无法提供更高的计算能力。

提高处理器性能有两种做法:高主频和多内核。高主频会带来处理器的TDP(Thermal Design Power,热设计功耗)指数上升,相比高主频,多核设计更适合服务器领域。但是这些变化都意味着处理器需要更高的TDP来支持,TDP的提升意味着还要解决另外一个问题——散热。对于部署在数据中心里的服务器而言,风冷是目前最普遍的手段,如何优化散热效率则是服务器能具备更高性能的关键因素。

对于销量最大的2U双路机架式服务器而言,散热设计显得尤为重要。2U的机箱高度限制了使用更大口径散热风扇的可能;其次,由于高性能的设备越来越多,例如NVMe SSD广泛应用、GPU大量进驻服务器……相应的服务器电源功率也从早期不到1000W攀升到2000W级别,如何实现更高的散热效率成为摆在服务器厂商面前的一个难题。。

散热问题在戴尔前几代服务器(比如13G的R730)中并没有如此严峻,其原因在于,英特尔最新一代的至强可扩展处理器(Xeon Scalable Processor,至强SP)在拥有更多内核、更多I/O之后,功耗显著提升——以顶配的至强白金版8180为例:

提供28个物理核心,默认主频就达到了2.5GHz ,睿频支持3.8GHz,TDP达到205W,比之前至强E5-2699 v4处理器的TDP(145W)提升了40%还多,双路服务器在处理器环节的散热就增加了120W。

即使是企事录测试的这台R740xd服务器中配置的黄金版6130处理器(约相当于上一代E5-2660 v4),单颗处理器功耗也从上一代的105W提升到现在的125W,双路服务器内仅CPU就增加了40W功耗。尽管CPU针脚和安装方式都有巨大的改变,但留给散热器的空间并没有增加,因此对散热片、风道的优化设计要求也就更高了。

除了CPU需要更好的散热之外,NVMe SSD相关高性能设备的加入,也变相提升了散热需求:

Dell PowerEdge R740xd内部组件,为了满足12个U.2 NVMe SSD全速工作的要求(工作在PCIe 3.0 x4),戴尔在R740xd内部的3个PCIe x16插槽上安装了三张PCIe扩展卡;新一代Skylake平台提供性能更高的25GbE网卡也已经成为14G的标识。这些板卡自身需要散热,而且还占据了服务器背部的散热空间

送测的这台R740xd服务器配置的至强黄金6130处理器,是面向主流市场的高端产品,而R740xd可以支持支持全系列的至强可扩展处理器,包括最高端的铂金81xx处理器,但散热器也要更换成相应的型号,以满足更高的散热需求。

考验来了:换用旗舰版的铂金8180处理器,服务器的整体性能将进一步飞跃,前提是服务器的散热跟得上——特别是不更换这两个为125W级别TDP设计的散热器?

你高我胆大。企事录用两颗铂金8180处理器直接替换了原厂的黄金6130处理器,依然使用原厂的散热片,令人惊讶的是虽然单颗处理器的TDP从125W升到了205W,增加了80W,双路就是160W——比单颗至强E5-2699 v4还要高!

但是,无论是在待机还是Oracle数据测试环节,R740xd都表现出了国际大厂的稳定范儿:在室温28℃环境中,处理器待机温度在35℃上下,在Oracle数据库的满负载测试中,两颗处理器都稳定在85℃以内(见下图),相信如果更换官方针对型号的散热器,降到80℃以下应无问题。

而且在Oracle数据库测试过程中,R740xd的散热噪音,并没有特别夸张,虽然较使用6130安静的整机相比噪音增大了许多,但是依然属于可以接受的噪音范围,即便在机器边调试设备也不会觉得烦躁,何况服务器要部署在数据中心里。

用配给125W处理器的散热器都能将205W的8180满负载镇压在85℃,显示出戴尔在14G服务器上优秀的散热设计。要知道14G设计之初就是要满足在2U高度下的2000W的热功耗散热需求的,也就是说可以满足两颗205W TDP处理器+3块250W GPU,以及内存、硬盘等其它设备的满配散热需求。

据戴尔官方资料显示,新一代的14G提供业界最佳的散热能力,以系统气流为核心设计的新型机箱机械结构带来了如下的散热增长:

  • R740XD增加17-50%系统气流(和R730XD 比较)

  • R640 增加15% (和R630比较)

  • R740 增加11% (和R730比较)

R740xd优化的散热设计集中在新硬盘托架和风扇墙上

14G新一代的硬盘托架具有更大比例的散热孔槽,不但能减少气流的阻力,还为高发热的U.2 NVMe提供了足够的散热条件。当然,为了更高的性能和散热条件,最后企事录在测试中将这4块800GB的U.2 SSD间隔插在支持U.2的12个插槽上,这样可以获得更高的性能和更好的散热。

6组6厘米的对转风扇(单12W功率)分为左右两组,分别对应两组处理器+内存的风道,将气流导向需要的位置。因此我们才能使用125W的散热片压住了205W TDP的白金版8180处理器的满负荷运行

获得了峰值近300万TPM的Oracle数据库性能。从(双路6130处理器的)250W TDP到(双路8180处理器的)410W TDP功耗,R740xd都能很好支持,其结构设计,尤其是散热设计令人叫绝。

如果仅以Oracle数据库性能来衡量R740xd服务器的能力,这既不科学,也不全面。Oracle数据库本身是一个计算重负载的应用(虽然以往它的瓶颈总在存储I/O上),其消耗了R740xd服务器上的绝大多数的计算能力:

在2块NVMe SSD时,Oracle数据库性能就达到上限——243万左右,这是由于Oracle数据库消耗了大量计算能力,CPU性能的不足,导致R740xd服务器出现瓶颈

但实际上,如果R740xd仅作为存储的话,其能提供更多的I/O能力:

仅作为存储,R740xd在使用1块NVMe SSD时,能提供近42万IOPS(8K数据块),带宽达到3.3GB/s;而使用4块NVMe SSD,则能提供170万IOPS,带宽近13GB/s。可见从1~4块NVMe SSD的增加,其性能是线性增长的

如果将R740xd变身为一台高性能存储节点,使用更多的NVMe SSD,那么会得到什么样的性能表现呢?戴尔14G服务器还有多少未探索到的惊喜?企事录随后还会继续深入探讨,敬请关注!

原创粉丝点击