HPC集群运维还在亲历亲为?你Out啦!
HPC(高性能计算)是个相对“高冷”的行业,设计、建设、使用和保护HPC集群也是个有门坎的技术活儿,专业化程度很高,因此HPC用户在集群建设运维上的传统做法都是亲历亲为。但是,一种新兴的服务模式正在这个行业遭到愈来愈多客户的认可——由北京并行科技科技有限公司(以下简称“并行科技”)所打造的基于互联的7×24小时数据中心自动化运维服务系统OITS,能实现HPC集群的远程运维和优化,从而帮助HPC用户以最经济的本钱最大化利用HPC集群。
OITS诞生记
并行科技是一家从事高性能计算和大数据[注]分析的高新技术企业,2007年成立,今年刚取得6000万融资。该公
在成立后的较长一段时间里,并行科技都是以销售这两款软件和提供集群优化服务作为主要的盈利模式,几年下来,多个国家和省级公共超算中心,和中石油、中海油等许多石油行业的HPC用户都成为了并行科技的忠实用户。虽然在行业被愈来愈认可,但并行科技也渐渐遇到了业务拓展上的瓶颈。
“我们给国内某大型石油用户做HPC集群性能优化,第一年用户付费给我们做优化,我们将集群性能从百分之几提高到百分之十五左右,他们特别高兴,第二年又付费给我们,我们又从百分之十五提高到接近百分之六十,但是第三年我们发现没什么生意可做了,由于效力已到百分之六十了,提高的空间很少了。”并行科技CEO陈健说,“更重要的是我们的人力物力有限,这类传统的B2B业务模式使得我们只能服务大客户,对国内大量的中小HPC用户,尤其是那些服务器数量低于100台的用户,真是爱莫能助,而这些用户恰恰又属于IT支出相对紧张,很难配备,配备了也很
终究,基于用户的需求,并行科技将核心技术与服务以互联服务的方式提供给用户,即目前我们看到的7×24小时数据中心自动化运维服务OITS。
不但仅是托管
一旦用户将自己的HPC集群接入并行科技的OITS系统,那末并行科技将每60秒对用户机群各节点、各指标,和整体运行情况进行主动巡检,一旦发现可疑问题,第一时间以电话、短信、邮件等各种手段向用户告警。如果并行科技取得了用户的授权,那末通过远程登录,并行科技运维人员最快10分钟以内就可以帮助用户解决问题。
不过,OITS用户取得的可不仅仅是7×24小时托管运维服务,基于收集的数据量,并行科技还为用户提供数据统计与分析服务。其中,用户数据中心管理员可查看数据中心运营历史数据,做各种统计分析、数据发掘,领导可查看数据中心整体运营看板,并行科技用户的用户——即HPC机群上每一个具体作业的负责人也可以查看各自运用的运行情况。
“分析这些数据非常有价值。例如几千台服务器运行了三个月,发现有五个程序占用了70的机时,那末你只要将五个程序的效力提高20,就相当于将全部数据中心效力提高14。固然,这其中一个关键是我们收集的数据特别丰富和周全,一般的HPC用户自己很难做到这么细粒度的数据收集。”陈健说。
“对用户来讲,做调优的时候有个很严重的问题,就是没有目标,我是想要做调优,我其实不知道要提高几倍的速度,你看这张我们演示用的账户所实时生成的分析报表,按该用户所处行业的‘并行指数’已分析出数值了,那我们就有努力的方向了。”陈健指着一份报表解释说( 微信关注络世界),“固然,如果你不清楚如何做调优,我们也可以提供相干服务。我们可以按该用户的运用特点所处行业‘并行指数’帮助其快速调优,实际上,能在用户准备建设集群时帮助用户实现“「买好」”数据中心的目标”
费用方面,并行科技对OITS的定价大约是每台服务器每一年的服务费用千左右,即一个具有100台服务器的用户,每一年的支出为10万,在北上广等一线城市,10万也就是雇佣一个低级工程师的年薪。两相比较,OITS的性价比不言而喻,这也是为何OITS开通大半年以来,最早响应的前500名用户中大部分是大客户。
无穷蓝海
对并行科技而言,提供数据中心在线运维服务也不仅仅有望实现当初希望覆盖广大中小用户的初衷,还令其看到了更广阔的世界。
在现实中,HPC用户常常遇到的YIG情况是,由于本身资源有限,常常需要向外寻觅超算资源,一家家去咨询费时费力不说,即使找到空闲资源,用户花了很多时间去移置运用,但由于HPC运用与底层硬件是强耦合关系,最后真跑起来可能发现所租借的超算资源并不是是最合适的平台。与此同时,公共的超算服务中心又需要延续找到用户的强烈需求。并行科技认为通过OITS可以充当中介的作用,在用户与公共超算中心之间搭建一道桥梁,帮用户实现「用好」机器的目标。
目前,已有几万台服务器接入了并行科技的OITS。陈健表示,接下来半年该公司将进入全面推行阶段,在这个期间购买并行科技OITS的用户也会得到许多优惠政策。
转载请注明地址:http://www.aemvc.com/zcmbhl/745.html