云骁智算服务平台

2024-08-27

21
0
0

云骁智算是提供高性能计算、存储、网络服务的智能计算加速平台,可提供异构算力的管理与调度,计算与存储间的高效互联,跨域监控和故障感知,一键自助诊断及智能加速套件等能力,通过云骁智算平台可大幅提升数据加载、训练和推理效率。

云骁智算平台包括资源管理、系统运维监控和加速套件等多个部分。

资源管理部分,云骁标准资源组提供基于GPU物理机和GPU云主机的集群化开通与管理,云骁扩展资源组在标准资源组基础上提供全托管和高可用控制面板的标准Kubernetes集群服务,支持以云骁计算节点作为Kubernetes集群的工作节点。

系统运维监控,提供从服务器检测、RDMA性能检测到集合通讯库性能检测的全方位检测,以及多维度资源使用情况的实时监控。

加速套件,支持数据及通信层面的加速能力。例如,支持高性能通讯库CTCCL,基于天翼云网络进行深度的定制优化。

云骁智算支持一键提交训练任务、日志查看、主流计算框架(如:PyTorch)。

应用场景

大模型场景

业务概述

  • 提供海量文件的处理和大模型开发管理能力,实现从模型开发、模型训练、模型管理、模型上线、服务调用的完整流程,进一步降低大模型产业化门槛

业务优势

  • 大模型训练与推理等全场景支持:分布式训练框架提升大模型训练效率,数据智能加速减少训练数据加载时间,拓扑感知调度,多机多卡训练场景下,最大程度保证算力聚合

  • 高性能存储:数据条带化,I/O负载均衡,支持上万客户端并行访问。基于全闪介质和RDMA高速网络,提供百GB吞吐、百万级IOPS、亚毫秒级时延

  • 高性能网络:提供高带宽和高吞吐量,提供端到端小于1微秒转发时延,RDMA技术保证端到端不丢包,消除传统TCP/IP网络中重传包带来的性能降低

政务场景

业务概述

  • 利用人工智能技术,构建12345智能语音助手、RPA机器人和智能审批能力,实现便民热线智能化、表单/材料辅助录入、系统自动受理、自动比对通过的办件、秒批办结等,减轻工作人员审批工作量,缩短群众办事时长

业务优势

  • 云智一体:多中心统一管理,属地多算力中心、云上云下可统一进行管理。提供丰富的预训练模型,缩短AI业务上线周期,提升AI业务平台能力。平台提供标准化运营计费、租户管理、监控运维等能力

  • 开放平台:可提供云主机、裸金属、容器、AI任务等多样化算力使用形式,用户可按需使用。适配Tensorflow、PyTorch、MindSpore、DeepSpeed等众多主流框架

  • 国产化方案:全自研的智算平台,全自研并行文件系统。适配昇腾、寒武纪等国内主流芯片,适配海光、鲲鹏等各种国产服务器,适配国产化操作系统

科研教育场景

业务概述

  • 人工智能驱动的科学研究(AI for Science, AI4S)融合科学原理和大数据,打造新一代科学技术服务平台,实现对数据、算力和算法融合应用。将基于人工智能技术算法、大数据对科学计算与工业范式进行创新

业务优势

  • 高性能计算引擎: 云骁智算平台搭载强大的高性能计算引擎,能够迅速处理科学领域中计算密集型任务,加速科学研究过程

  • 强大的并行计算能力: 云骁智算平台在软件层面优化了并行计算,能够同时处理多个任务,提高科学计算效率,加速研究成果的产出

  • 深度学习集成: 云骁智算平台深度集成了先进的深度学习框架和工具,为科学家提供了处理大规模数据和复杂模型的能力,助力科学研究取得更深入的认识

Comments