探寻“黑金”的新HPC法则

  编者按

  日前,中科院计算所的相关研究人员透露,正在研发的我国首台千万亿次超级计算机将会采用8000余颗国产处理器,这台超级计算机研制成功后,将计划提供给国家华南超级计算中心使用。

  高性能计算机的研制水平是显示一个国家综合国力的重要标杆之一,但是与此同时相关高性能计算实际应用水平,也能反映出一个国家的科技能力的实际水平。特别是,随着在国民经济的不断发展,充分提高高性能计算应用能力,成为中国石油、气象、生命科学等广泛应用高性能计算的行业所面临的有待解决的重大问题。从本期开始,本报将陆续推出高性能计算在不同行业应用情况的报道。

  石油物探行业是中国高性能计算(HPC)最早的用户之一,经过多年来不断发展,应用基础已经夯实。不过随着技术的进步,以及行业环境的变化,高性能计算在石油物探行业的应用,在数据中心管理、机房基础设施建设等方面悄然发生着变化。

  石油就是地球上的“黑金”。它对于当下这个社会的重要不言而喻,各行各业的发展或多或少都会依靠它。而同时,石油对于人们而言,又是那么宝贵。油田大都深藏在地下各种复杂的地质构造的深处。有人形容,油田就如同一个“被踩碎的盘子”,被深藏在了地下,嵌在了坚硬的岩层之间,找油、采油的绝非易事。所以通过各种先进的技术,加快石油的勘探速度,提高石油勘探的精度,长期以来是世界各国石油行业不断在高度关注的问题。

  特别是,现在大部分油田已经进入成熟期,产量已经开始递减,一些权威机构统计表明,现在世界上消费的石油,大部分是以前勘探发现的石油,新发现的石油难以弥补成熟油田的快速递减。因此在油气勘探中要想获得更大的突破,就需要包括在地震数据处理、数据解释到数值模拟等各个方面,加大对信息的依赖程度,这也就势必增加了对信息采集、加工的计算能力的需求。

  井喷需要更强计算能力

  高性能计算与石油勘探又有着怎样的关系呢?因为在很多人的印象中,找石油通常是要先行勘测出一片地下可能储有石油的区域,然后再在这个区域内打许多口井,并查看到底哪口井能够出油。在这个过程中,有什么环节需要高性能计算支持呢?

  其实,人们认识中的这种石油勘探作业方式,今天早已过时。这种方式通常使用的是传统的地质学方法和地球化学方法来勘测,其结果是很不精确的。由于油田在地下并不是以所谓“油海”的形式存在,而是由一个个彼此隔离的“葡萄串”组成的,因此在不够精准的勘测结果面前,人们只能多钻井进行尝试,而且只有将油井钻到一个储有石油的“葡萄”顶部,才算是大功告成。然而,钻井的费用是非常高昂的,每打一口油井,其花费往往都会达到上千万甚至是上亿元,为提高石油勘探的能力和效率并降低其成本,石油企业很快就开始在勘探中采用了更为先进的地球物理方法,尤其是地震波法。

  目前为石油行业用户广泛应用的商用地震资料处理软件有Paradigm的Geodepth和Focus、Western Geco的Omega、CGG的GeoCluster,这些应用均为支持大规模集群运算的并行版本。地震资料处理是典型的浮点计算密集型应用,以求解数据密集的波动方程为主要计算模式,因此对浮点计算能力要求较高,对内存带宽的占用中等,对大量炮集的处理需要良好的多核扩展性。目前国内自主开发的这一类软件主要是采用PSTM叠前时间偏移和PSDM叠前深度偏移的算法,如中国石油东方地球物理公司(BGP)自主开发的GeoEast、中国石化南京石油物探研究所开发的iCluster等。在计算精度和复杂度上,国外主要厂商WesternGeco等已开始将RTM逆时偏移等消耗CPU资源更多、精度更高的偏移算法投入生产。国内的中国石油东方地球物理公司等企业也开始尝试Paradigm公司的CRAM共反射角偏移模块。

  在油藏模拟类的应用软件方面,目前在全球范围内较为知名的有Landmark的VIP/Nexus和Schlumberger的Eclipse,国内自主开发的相关产品主要有大庆研究院的PRBS并行黑油模拟。不同于在算法上以频谱计算为核心的地震资料处理软件,油藏模拟对计算平台的要求是需要支持稀疏矩阵方程的迭代求解,对内存带宽的要求非常高,并需要大缓存支持,因此这类软件可归为对内存带宽高度敏感的计算密集应用。

  在英特尔2009年度高性能计算研讨会上,英特尔软件与服务集团高性能计算及工作站应用总监Paresh Pattani就表示,石油勘探中地震资料的处理,对计算新能、密度和效率的需求永不会满足。石油勘探地震资料处理是典型的浮点计算密集型应用,以求解数据密集的波动方程为主要计算模式,因此对浮点计算能力要求较高,对内存带宽的占用中等,对大量炮集的处理需要良好的多核扩展性。

  BGP研究院副总工程师赖能和表示,随着地震成像技术的发展和应用越来越复杂,对于所涉及的计算能力也就提出了更高的要求。“从二十世纪80年代开始,采用常规叠后偏移的算法,经历了积分法叠前时间便宜、积分法叠前深度偏移、单程波叠前深度偏移等多种地震波成像技术,发展到现在的双程波叠前深度偏移,未来还要发展到弹性波叠前深度偏移,计算量不断增大,对于CPU的需求也是直线增加。”

  胜利油田地质科学研究院傅瑞军一直在从事高性能计算在油藏数值模拟方面的应用研究。“油藏数值模拟从20世纪50年代开始逐步发展完善,到目前为止已经是石油勘探开发领域中不可或缺的一环。在整装、断块、滩海、稠油等各类油藏研究中得到了广泛应用,在机理分析、方案设计、方案调整、剩余油分布、提高采收率研究中发挥了重大最用。”傅瑞军说。“它就是用数学,物理学这些基础知识结合油藏地理学和油藏功能学构建一个数学模型,然后把数学模型变成计算机模型,用高性能的计算设备来进行求解,以及来解决油藏研究中的实际问题。”

  傅瑞军表示,由于整装油藏进入特高含水开发阶段,剩余油藏分布趋于零散。断块油藏,层位多,层间矛盾突出,以及用于精确描述油藏高度非均质特征的油藏模型规模不断增大,这些因素都促使大规模油藏数值模拟研究的需求不断增强。同时油藏数值模拟计算的并行化、整体模拟、精细化、动态跟踪和不同开发方式的复杂性,决定着对高性能计算的迫切需求。

  据了解,胜利油田地质科学研究院专门配备了采用了安腾芯片、infiniband网络体系结构高性能集群用于油藏数值模拟并行计算。整套集群峰值速度可达17000亿次/秒,配有272个CPU,可分136个逻辑群。

  傅瑞军认为,根据目前的发展趋势,未来十年到十五年之间,油藏数据模拟的算法还会有重大突破,这个突破势必会促进计算机群扩大规模。借鉴地震数据处理和解释等可视化应用,油藏数据模拟处理也将会引入更大的计算集群。虽然集群引进的规模很难和地震数据处理相比,但是它的增速会在某个时间点超过地震处理计算集群的增速。

  规模化呼唤科学管理

  BGP拥有亚洲最大的地震资料处理中心,在北京、新疆库尔勒、乌鲁木齐、甘肃敦煌、西安、唐山、任丘、大港设有处理分部,在伊朗、巴基斯坦、尼日利亚、苏丹、休斯顿建有处理分中心。目前BGP已有15000CPU、28014核的PC集群,运算能力在230万亿次/秒,在中石油的PC集群CPU核总数(70612)中,BGP占46.2%。

  “规模化软硬件资源,为保证地震数据处理周期、及时提交成果,提供了很好的保障。”赖能和表示,但是与此同时也带来了新的挑战。

  “由于缺乏科学、合理的调度和管理手段,设备增多了,计算能力更强了,带来的后果就是管理上的难度。由于机柜这么多、节点这么多、存储阵列这么多,往往无法及时掌握使用情况,坏了可能都不能马上发现。相应得数据交换机数量庞大,一旦出现网络问题后,很难判断到底是在哪里出问题。”赖能和说。

  赖能和还透露,由于PC集群计算理论峰值和实际应用效率和性能差距很大。在BGP,CPU年平均利用率目前运行叠前偏移能达到约65-75%,而常规地震处理系统和调试目标线的集群利用率都很低,只到不足20%的CPU平均利用率。随着设备数量每年都在不断增加,CPU平均利用率不高直接的后果就是相关电费直线上升。“2005年每年的电费是334万,2006年的时候达到将近500万,2007年接近800万的电费,2008年更是达到了1100万的电费。”

  而且,150多个PC集群机柜、100多个存储机柜、十几个机房、5个靠前处理机房,庞大的软硬件设备所带来的生产和设备运行安全,也成为压在赖能和心头的一块“巨石”。“以GBP为例,每个地方都有空调,每个机房都有UPS,这些空调可能会出现漏水的情况,UPS可能会出现发热的问题,这么多设备,怎么去管理?因此我们认为很有必要采用这种先进的,高效的数字化管理技术实现软硬件资源的科学化管理,”

  据了解,为了解决上述的三大问题,BGP开始将数字化管理技术应用到BGP处理中心的日常管理中。“我们开发了数字化管理软件平台,实现所有运行项目的数字化管理;开发了CPU资源管理平台,对PC集群机柜的统一协调管理;开发了存储和网络管理软件,提高资源利用率;开发UPS、空调、配电实时监控软硬件,确保了设备安全。”赖能和说。

  在BGP,现在工作人员通过数字化管理平台,可以对生产项目运作公共信息、生产项目进度与使用的资源等进行集中管理。对于每一个项目运用到哪个阶段,用了多少成本,工作人员都可以通过软件进行管理。

  “另外,通过CPU资源管理平台,实现了对CPU资源的实时监控。这样,在一个控制界面上,我们可以对一百多个机柜内的CPU实时监控,掌握它们的运行状况。哪些CPU是空闲的,哪些并不闲,哪些可能有毛病,我们都可以及时的看到。同时再加上视频会议系统,管理人员可以轻松地实现异地直控、软硬件技术支持、系统维护等工作。”赖能和说。

  在BGP,各种存储、网络设备价值几个亿,为了更好地管理如此庞大的设备,BGP专门开发了一个存储和网络的管理软件,实现了所有存储资源远程集成监控。一旦某一个存储设备出现了问题,服务器就可以立即向维护人员发出短信报警,告之是哪一台设备出现问题。另外对于某一个交换机跟哪些存储有关联,都可以在管理系统中通过视图直观地表现出来。不但可以看到这个设备运行状况,还可以反映哪些设备哪些地方有故障。

  “除了计算和存储设备,在BGP还有庞大的UPS和空调,它们分布在几十个机房,如果通过人工的方式去管理,每天以打电话的方式了解运行状况,实在是太不现实,我们也是开发了专业化的管理软件来对机房的这些设备进行监控。在这个系统地图形界面中,工作人员可以看到机柜在那里,机房里面那里放着主机,那里放着UPS,目前的空调或UPS负载情况有是怎样的情况,消防系统、线缆负载等等各项指标一目了然。甚至系统还和机房内的高清监控摄像头连接在了一起,机房内的一切都可以实时、清除地被工作人员所掌握。”赖能和说。

  2008年中国高性能计算机性能TOP100排行榜上,中石油川庆钻探物探研究中心华阳机房位列第三。中心计算机所所长邓亚力介绍,物探研究中心华阳数据机房是目前国内热密度最高的机房之一。数据机房设计总负荷供电2343kw,其中UPS负荷960kw,总制冷量1133kw;设计计算装机容量3400颗CPU,存储装机容量1000TB。由于采用了集中统一的管理监控,数据机房就实现了无人值守,计算、存储、网络分区域管理,并能支持业务弹性发展。

  赵改善是中石化石油勘探开发研究院南京石油物探研究所的副所长,他所在的单位正要搬往新的办公地点,为此数据中心也要重新建设。他表示:“未来新建的数据中心,除了面临能耗、性能不全满足要求、性能价格比、人才紧缺等挑战,还有一个重要的挑战就是管理。”他说,“虽然我们的规模相比BGP还是比较小,但是由于系统管理人员很少,而且缺乏相关的经验,面对如此大量的运行维护工作,如果能科学的管理、定量的管理,为系统正常运行维护提供支撑,还是很重要的。”

  进一步绿化基础设施

  中石油川庆钻探物探研究中心华阳数据机房坐落在一片住宅小区旁边,机房大楼下排列一排排空调风扇,发出巨大的轰鸣声,空调和居民住宅楼也就只有十几米的距离。邓亚力向记者表示,空调风扇带来的噪声问题的确很不环保,当初机房在建设时如果能够采用水冷制冷系统,也就不会产生这些环保问题了,而且机房的计算装机容量还能提高。

  像华阳机房这样空调设备和居民区距离如此近的案例,可能是属于比较特别的案例。但是,绿色高性能计算中心已经成为了高性能计算应用中不可回避的话题。

  那什么才是绿色的高性能计算呢?英特尔解决方案部中国大区技术部经理梁岩表示,“高功耗绝对不是绿色的,但低性能同样不是绿色高性能计算要追求的目标!”

  梁岩认为,应该从多个层次来衡量绿色的高性能计算。“对于数据中心而言,应该考虑功耗转换给IT计算设备的效率;在服务器级,则要关注服务器将多少功耗转换给关键计算设备;至于CPU级,则要考量单位功耗能够提供多少的计算能力。”

  梁岩表示,在绿色数据中心建设中,与之相对应的具体措施就包括:改善制冷风道设计、改善UPS电源转换,或是采取一些创新设计,例如采用直流供电、直接外部散热手段。

  赖能和也表示,机房和机柜采用液体智能冷却技术、大型机房基础设施风道设计节能技术,将成为未来高效能绿色处理中心建设的热点。

  邓亚力对于改善制冷风道设计也是深有感触,“通过华阳机房的建设,我们感觉到,在机房设计的时候,必须要进行空气气流分析,现在高密度运算制冷,为什么设备后面热得不得了,那是因为热度不均匀,最主要的原因是没有足够的冷空气流补充过来,就是空调的回风口没有足够的气流得到补充。所以说在机房设计之初,必须要考虑是否有制冷所需的足够用的气流,而不是说制冷到底能够有冷。”

  采访手记

  多方携手 消除“软”肋

  技术的进步绝对是日新月异的,高性能计算更是如此。

  硬件的发展已经极大地促进了高性能计算的进步,目前甚至可以为用户定制相关服务器,提高数据中心单位面积的计算能效比,降低运营成本。据了解,国内的企业就在和英特尔就一起成立了联合实验室,通过定制化服务器以支持自身业务发展。根据测试,采用至强5500处理器的服务器,与原先每个机架的密度可以提高20%,性能可以提高60%以上。

  但是通过与石油行业用户的接触,硬件性能的提升,也不一定能满足他们高性能应用的需求,“给地球做CT真是太难了”。

  业内的专家就表示,计算机硬件厂商不用担心,地球物理研究对于计算能力的需求永远存在,而且还在持续发展。所以虽然金融危机对设备采购有影响,但是石油勘探领域对于计算机硬件设备的需求是不会停止。

  采访中,记者发现,用户关心的问题很多是来自非硬件层面,例如人才、软件工具、系统调优等等。对于硬件产品,石油行业的用户绝对“不差钱”,但是对于这些“软”问题,也许就需要高性能计算这个链条上的各个环节,包括英特尔、IBM在内的厂商,以及BGP这样的用户,更多地交流和互动,进一步改良各项相关产品和技术,以实现IT产业与石油行业客户的长期共赢。

  链接

  所谓地震波法,简而言之就是用炸药在地面激起人工地震波,这种地震波可传入地下深处,并在碰到不同形态的岩层时形成不同的反射波,这些反射波经地面的检波器收集、转变成电子信号后可存储为数据,通过对这些数据进行计算处理,人们就能清晰地摸拟出勘测区域的地下地质构造,并找到那些存有石油或天然气的岩层的精确位置。由于地震波法勘探收集的数据通常都以TB计,因此这些海量数据的处理只有借助高性能计算机,才能在最短的时间内完成,以实现最佳的勘探效益。

关注读览天下微信, 100万篇深度好文, 等你来看……