石油行业是高性能计算的重点行业,其应用水平也比较领先。据记者了解,从最初的向量式高性能计算机,到后来共享内存的SMP计算机,到虚拟/分布式共享内存的NUMA和CCNUMA,再到后来的分布式内存的MPP、集群等高性能计算机,石油行业都是新技术产品的积极的应用者。

  从最新公布的高性能计算Top 500排行情况看,集群式架构占据了74.60%的份额;在处理器排行中,x86架构处理器以73.2%的份额成为了最大的赢家。据记者的调查和了解,目前石油行业的高性能计算应用主要以集群为主,与Top 500的情况相吻合。

  释放高性能计算的能量

  “石油行业高性能计算应用可以分为两个部分,一个石油勘探,一个石油的生产和开发,它们的需求不同,所采用的高性能计算方案也不相同。其中石油勘探,也就是找油的过程,是高性能计算应用的热点,多采用集群的计算方法。”英特尔石油行业资深企业客户经理航晓东对记者说。

  记者随后查阅了有关资料,所谓石油勘探是根据地质学和物理学的原理,推断、了解地下的地质构造特点,寻找储油的地质构造。其中,地震勘探是查明地下地质构造的一种最有效的方法,它通过人工方法激发地震波,然后研究收集到的地震波在地层中传播的情况,来查明地下的地质构造。

  高性能计算在地震勘探中的应用,就是利用高性能的计算机,对野外获得的原始资料进行计算,所采用的方法有地震叠前时间偏移(PSTM)、叠前深度偏移、叠前波动方程偏移等处理技术,多采用Schlumberger、Landmark等石油勘探应用软件开发商的软件产品。据东方地球物理勘探公司研究院副总工赖能和介绍,叠前时间偏移已经国内外石油公司最为常规的处理手段,并带动了对于集群为主的超级计算机的需求,其处理能力不断提升。以法国的CGG地球物理服务公司为例,在收购了美国VERITAS地球物理公司之后,其处理能力已经达到了354万亿次/每秒(Tflop/s),而东方地球物理勘探公司的处理能力也达到了80万亿次/每秒的水平,处理器数量达到1.2万颗。据赖能和介绍,如果采用叠前深度偏移,所需要处理能力需要提高1.2~1.5倍,而叠前波动方程偏移需要提高2.5~5倍。因此,对于石油勘探而言,与气象研究相类似,无论有多大的计算能力,都远远不能满足应用的需求。

  如何满足石油行业对处理能力的需求,不能仅仅依靠大规模的集群,实际上,当集群规模达到一定程度之后,就会遭遇性能的瓶颈。为此,胜利油田物探研究院李战强表示,提高集群系统的处理能力应该重视系统的调优工作。据了解,在最新发布的Top500排名中,胜利油田以18.6万亿次/每秒的速度位列第43位,居国内企业之首。据了解,胜利油田采用的是IBM公司的BladeCenter HS21刀片服务器,它采用了Intel 2.33GHz的至强双核处理器,具有960个节点,共4096颗处理器。但是这样的一个系统,并不是先天就具有了18.6万亿次/每秒处理能力,而是经过了调优。

  据有关技术人员介绍,调优工作是在英特尔技术工程师帮助下完成的,其中采用了英特尔公司所提供最主要的两个调优工具:Intel Compilers(编译器)和Intel VTune Analyzers。据记者了解,从4月15日申报Top 500排名开始,最初的4月28日,其16个集群节点的效能只有66%,仅仅达到了0.39万亿次/每秒的水平。经过采用Intel VTune Analyzers调优工具的分析,发现系统在交换机方面存在瓶颈,经过与网络厂商技术人员交流和分析,可将系统提升到9.28万亿次/每秒(1000个节点),后采用MPI+OpenMP的混合应用架构,进一步提升到12.2万亿次/每秒的水平。通过移除掉缓慢交换节点,性能 达到了15.1万亿次/每秒,又经过了平衡每一个交换节点,才最终达到了18.6万亿次/每秒的水平,其间经过了数次大的调优,历时2月有余。对此,李战强表示,系统调优是发挥系统效能的重要手段,应该引起足够的重视。它表示,经过Linkpack测试与系统实际应用运行指标有很大的不同,但是Linkpack测试要使用整个集群系统的所有资源,并发挥到极致,因此对于系统得稳定性和性能都具有非常高的要求。这对于用户而言,是一个了解系统性能的最好的方式,因为如果系统具有隐含的问题,那么其Linkpack测试很难获得好的结果。

  记者随后也与Intel企业解决方案部高端企业客户中国大区经理王克先生取得联系,了解到英特尔为推动能源等上游企业的发展,并发挥英特尔在处理器制造领域所掌握的丰富知识与经验,英特尔为用户提供了多种系统调优软件,包括调优工具、编译器、类库、集群工具以及多线程工具等。据英特尔亚太客户响应团队技术经理何万青介绍,目前这些软件都可以通过网络下载试用的版本。他表示,英特尔的目的并不是销售软件,英特尔也不是应用级软件的行家,但是这些工具可以帮助最终用户定位问题,找到系统的瓶颈,而这对用户非常具有帮助。对此,记者了解了很多石油行业的用户,他们表示,Intel的软件工具非常具有价值,很有帮助,并非常欣赏Intel作为一个芯片开发商所提供的增值的服务。

  I/O瓶颈 节能与环保

  在采访中记者了解到,CPU的利用率不高是一个普遍的问题。即使是地震叠前时间偏移处理,其处理器的年平均使用率也只有65%~75%左右,对于要求频繁I/O 和高性能网络的常规地震数据处理而言,其利用率只有不足20%。

  对此,赖能和表示,解决I/O存储瓶颈以及制定具有针对性的技术解决方案是关键。他指出集群的软/硬件配置,与处理器利用率相关,不同的配置方案,具有不同的效果。例如他们对两组各128个CPU的机柜经过一定的整合、调优和技术改造,其结果效能提升了2.5倍。其方法是改变各节点的连接方式,用一个交换机的连接方案,替代了原有多交换机的连接方法。

  据大庆油田勘探开发研究院副总工程师张铁钢介绍,采用不同的存储系统,如利用SAN替代基于SCSI的DAS存储方式,I/O能力可以提升2倍。因此,改善存储架构也是提高处理器利用率的重要途径。

  与此同时,赖能和指出:高能耗、高密度机房的制冷、供电系统高次谐波、项目运作管理及运行成本等问题是目前石油行业高性能计算应用普遍面临的问题,这些问题解决不好,将造成买的起用不起的尴尬局面。据统计,如果安装1个处理器,考虑空间、照明、人员等环境因素和制冷的冗余,总共需要HIROSS 99UA专业空调22台,需要投资600万人民币;此外,需要2000万的UPS及其他辅助设备投资。因此,节能降耗就成为了数据中心非常关心的问题。

  如今英特尔、AMD等处理器厂商都将能耗作为一个重要的指标。以英特尔通过采用多核技术,在能耗不变的前提下,其性能有3倍(双核)和5倍(四核)提升。这意味即使不增加制冷设备,不增加服务器的数量,系统的性能也得到了提高。此外,对于制冷方式的调整以及机柜的摆放,也是降低数据中心运营成本的有效方式。据了解,东方地球物理勘探研究院通过调整机柜的方位,改造机房地板,引入格栅来定向调节风向、风量和风速,通过下送风对服务器制冷,大大改善了机房的温度。其中,格栅一项的投资为10万元,但是却可以减少3台空调,节省投资60万元。此外,针对UPS配电设备增加隔离变压器和有源滤波器等,一方面减少了线耗,另一方面也提高设备的功率因数,在改善供电质量的同时,有效较低降低了运营的成本。

  经验总结

  1. 提高服务器的效能。

  通过不断的芯片制程工艺改善,提高处理器能力,减少能耗;通过采用多核技术,提高处理并行度;通过平台技术,改善I/O的处理能力。

  2. 采用行之有效的系统调优工具。

  3. 改善存储系统架构,并制定具有针对性的技术方案。

  4. 提高制冷的效率。

  5. 改善配电设备,减少线耗,提高功率因数。