QingCloud EHPC,让超算更自由

2021-11-23 23:18:49

高性能计算是计算机领域的宠儿。宏观领域的大气运动规律、地质构造、遥感测绘;微观领域的基因测序、蛋白质组学、化工工艺等等,高性能正在模拟着世界万物。除了科研领域,HPC在各行业都有着广泛的应用,与人们的日常生活息息相关,如汽车设计、石油勘探等。这些领域的应用映射出了HPC应用的新场景:大数据、人工智能正在与超算融合。青云QingCloud 云平台&服务部高级总监陈海泉将其总结为三个方面:

首先,超算与尖端科研密不可分。要保持科技的持续进步,就要支持更大规模数据的计算,并且不断提高计算精度。

第二,大数据驱动存储与算力融合。随着数据量的越来越大,数据类型越来越多,需要大量的处理和分析工作,这驱使了数据中心和算力中心的互相融合,同时也需要更强的算力。

第三,人工智能应用爆发。在训练模型阶段,需要大量的浮点运算,为了达到足够的算力,就需要更多的GPU节点。

新的应用场景带来的挑战

在大数据、人工智能与超算融合的场景中,青云科技发现了其中的挑战。

首先是大数据的应用带来的两个问题:存储容量需求剧增;不同类型的业务对存储的要求不同。为了满足用户无限的存储容量、最高的性能、较低的成本的要求,超算中心需要对不同的业务提供合适的存储类型。

而早期的超算中心是围绕计算资源而建的,存储基本只有 Lustre 并行文件存储,并且容量有限,难以支撑大数据的场景。新一代的超算中心有些已经配备了足够大的容量,可以承接仿真建模类大数据的业务,但由于超算中心本身提供的服务比较单一,无法承载 MapReduce 这样纯粹的大数据业务。人工智能应用的爆发,要求超算中心有充足的GPU资源,且提供对应的软件框架,如 TensorFlow,且这些业务往往采用云原生的方式来部署和运行。这对以 Slurm 调度器为主的超算中心也是一个很大的挑战。

融合的超算平台

为了能够适应人工智能、大数据和超算的融合,全面支持各种新的业务场景,青云科技重磅推出了基于自身云基础设施的弹性高性能计算平台(QingCloud EHPC),可以为用户提供基于公有云、专属云、混合云等多种产品形态,为科研机构、学校教育、工业生产、行业计算等领域带来弹性灵活、快捷高效、安全可靠的超算服务,完美应对生命科学、CAE仿真、海洋气象、影视渲染、石油勘探、深度学习、测绘地理等应用场景的高性能计算需求。


据QingCloud EHPC产品经理苗慧介绍,QingCloud EHPC的服务架构主要分为三层:资源层、管理层和用户端。资源层主要包含青云的计算、存储和网络资源,以及相应的后台调度器、调度管理平台以及可视化服务平台。管理层主要提供SaaS化的服务,从开始作业到作业运行结束,系统将自动进行折扣信息计算、计量计费和作业监控服务,能够保证用户进来之后,对团队项目、团队项目权限等相应的管理。用户端是用户控制台,用户可以进行创建集群、管理集群、弹性伸缩、作业提交、作业编排、作业性能分析。通过用户控制台,用户可以方便地操作作业。
可见,青云 EHPC从资源层上提供了高效的资源,从管理层上提供了方便快捷的管理服务,从用户端上提供交互使用体验极佳的用户控制台。

支持全新业务场景

对于超算最常见的仿真和建模业务,青云EHPC提供了低延时、高带宽的InfiniBand网络,高速并行文件存储以及CPU/GPU的算力组合,不仅可以支持大规模求解运算,还能提供 GPU 桌面进行图形前后处理,完成一个闭环的业务场景。

对于大数据业务,QingCloud云平台提供的对象存储容量达 245PB,与计算节点结合,可以用于大规模的数据处理和分析。计算节点到对象存储的网络带宽达1.6T,能够保证大数据计算的超高性能。

对于人工智能训练业务,青云EHPC提供算力达850PFlops的A100 GPU资源池和全闪并行文件存储,并且能够结合容器平台,提供性能极致优化、轻量便捷、开源开放的人工智能平台。
有了云平台的多种存储服务,用户可以按照自己的业务来选择合适的存储类型,包括冷热类型的对象存储、全闪并行文件存储、块存储等。

有了虚拟化技术的加持,QingCloud EHPC可以快速为不同业务构建其所需的运行环境,随时切换化学工程、生物医药、大气海洋等行业软件平台,充分利用超算中心的硬件资源满足各种业务场景的需求。

保证超算中心的使用便捷和安全

传统的超算中心用户,在使用时需要提交一个申请,通过人工审批后安装虚拟私有网络客户端,连接超算中心提供的登录节点。由于超算中心的登录节点往往是很多用户共享的,因此,超算中心为了保证其自身安全,不提供 root 权限,给安装软件带来了不便。并且Linux暴露出的一些系统漏洞,如果被用户利用得到root权限,就可能窃取平台上其他用户的数据。

以上两个问题需要用云平台与高性能计算相结合来解决。QingCloud EHPC把传统的审批制度变成用户自服务的形式,用户随时可以到云平台注册账号,并且充值购买所需计算资源。

除了保障安全,青云EHPC还提供了两种不同类型的超算集群,使得超算使用更加灵活。

第一种类型是偏传统的共享型超算集群。值得注意的是,虽然青云EHPC的计算集群是共享的,但给到用户的登录节点是独享的,所以用户安装、执行等操作都是在自己的节点上,与别的用户没有关联。

第二种类型是新的独享EHPC集群,即给到用户一个root账号,这样用户不仅能自由地安装自己所需的系统软件,甚至切换超算平台的各种软件。由于EHPC集群的节点是用户独享,使用时不需要排队,可以合理安排使用时间。用户还可以根据特定的业务场景自由搭配EHPC集群的计算、存储和网络类型。

由于超算的业务往往是短期、大规模的方式,这就带来了两个问题:一是经常出现突发业务导致计算资源不够,其他用户使用时需要长时间等待;二是业务少的时候会出现大量资源空置,造成成本的浪费。青云希望不仅可以帮助超算中心私有化部署超算云平台运营自己的业务,还可以连接全网算力提供外部资源支撑突发业务,避免排队。

结语

相较于国家超算中心,青云有着公有云的基因,在用户体验、交互设计、运维服务上有着一定的优势。而相较于公有云服务商,青云又拥有丰富的超算经验,有较大的共享队列,有行业顶尖的计算资源、网络资源。QingCloud EHPC可以完美地支持大数据和人工智能融合的超算业务,并且以云服务的方式提供,让超算资源更便捷地交付给用户。

“青云希望能让更多的超算中心加入青云的分布式云节点,共建一个资源共享的算力网络。”陈海泉表示。

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】


  • Copyright© 2015-2021 长亭外链网版权所有
  • QQ客服

    需要添加好友

    扫码访问本站