在过去数年里,HPC(高性能计算机)软件企业Cycle Computing已经开始帮助研究人员组合亚马逊云主机(AWS,又称亚马逊网络服务),为他们在短时间内获得超高的计算机性能来玩成大规模的计算任务。近日,Cycle公司真的玩大了,它从亚马逊那里租用了156314个处理器核心,连续运行了18个小时,期间峰值计算速度达到了1.21 petaflops(1petaflops=每秒千万亿次浮点运算,天河I号的计算能力为2.6 petaflops)。
如果你和你的实验室实在是买不起超级计算机,但是又需要petaflop级别的计算机运算能力的话,你可以考虑一下花3.3万美元租156314个亚马逊云主机的处理器核心来用上它18个小时。
为了能得到这么多CPU核心数,Cycle同时从亚马逊全球的数据中心(美国3处、爱尔兰、新加坡、东京、悉尼和圣保罗)同时租用了云主机。经过18个小时的使用,亚马逊开出的账单仅为3.3万美元(约合20.5万人民币)。使用这些云主机的是南加州大学的化学教授Mark Thompson,他在此期间利用了这些设备计算太阳能转换效率最高的金属分子材料。
Cycle Computing公司总裁Jason Stowe说:“无论是什么材料,从计算、合成到提纯,然后分析数据,要花费一个研究生一年的时间,而且仅仅一种分子所需要设备、材料、人工成本就超过数十万美元。”
为了避免高成本的实验,Thompson使用了一款模拟软件来模拟真实实验。在这18个小时里,Thompson模拟了20.5万种分子材料的实验,相当于人工操作230万小时。虽然实验才刚刚结束,结果未出来之前并不会对太阳能行业产生重大影响,但是从这次实验所采取的方法来说,是很有开创性的。
虽然说峰值达到了1.21 petaflops,但是实际的过程中并不能每分每秒都达到峰值。测算超级计算机速度的时候并非选择峰值,而是选择实际使用的数值。Cycle的亚马逊云主机机群因为分布在全球各地,相互之间的数据沟通肯定会有延迟,性能也可能比峰值低。IBM、Cray等公司生产的超级计算机在协同作业的时候数据联络非常快,所有计算机核心都在一个地区,延迟相对就少。所以Cycle公司针对的就是那种对设备联系要求不高的任务。
Stowe说:“峰值不峰值的,其实并不重要。最重要的是,我们充分利用了这1.2 petaflops的计算能力。或许未来会出现针对大数据分析的浮点运算新规则也说不定。”
在最近的超级计算机Top 500名单中,亚马逊的超级计算机排名为127,速度为240.1 teraflops,峰值354.1 teraflops,仅有Cycle租用的机群计算能力的1/3。Cycle公司组建的云超级计算机的性能居然超过了亚马逊本家的超级计算机。
如何组建?
Cycle的机群拥有156314个计算核心,分布在16788万台云主机上,也就是说,他们租用的亚马逊云主机平均每台有9.3个计算核心。
为了降低成本,Cycle租用的设备大部分都通过亚马逊的竞拍市场获得,所以有的是8核的有的是16核的,也有的是32核的。
“为了部署机群,Cycle的软件自动竞标、获取、测试、组装成了这么一个超级计算机,然后将计算数据分发到各台云主机上。”
Cycle还使用了自主研发的Jupiter任务分发系统来分配任务,它可以跨区域、跨数据中心来分配、协调任务,即便在运行中有的虚拟主机崩溃了,它的任务还可以分配给其他主机来完成。
作为首个实验项目,Cycle并没有向Thompson的实验团队收取除了设备租用费用之外的其他费用,而且还给了大学研究折扣。其他研究团队也可以享受这种待遇。
本文来源:tech2ipo 作者:佚名