慧聚一站式智算服务平台

2024-08-25

33
0
0

慧聚一站式智算服务平台是为大模型训练、推理、应用提供全栈工具链的智算服务平台,包含数据管理、模型开发与训练、模型评估、模型管理、服务部署等模块。内置丰富的基座大模型,支持国产化等异构算力,提供算子加速与模型加速,极大提升大模型训练推理效率。

  • 核心功能

    提供数据管理、模型开发与训练、模型推理和应用服务四大核心功能,打造大模型“训推用”全栈工具链

    • 数据管理

      具备数据标注审核、数据加速、数据共享功能。数据标注可对指令微调、问答对、RLHF、预训练语料等数据格式进行标注审核与结果导出。数据加速可将数据转存到高速缓存中,提高数据吞吐性能,提升训练效率

    • 模型开发与训练

      开发机提供JuyterLab和VSCode集成开发环境,内置多款系统镜像和基座大模型,可挂载数据集、模型进行在线编码。集成全流程的AI工程化能力,并适配开源主流的分布式训练框架和高效的AI训练加速引擎

    • 模型推理

      面向需要调用预制模型服务或自有模型服务的用户,慧聚推理模块提供全流程工具链,包括模型精调、评估、部署、体验四大产品功能,支持推理加速、量化压缩、服务封装等核心能力

    • 应用服务

      慧聚智能体应用服务平台,集成插件集、知识库、提示词工程、workflow编排器等组件,提供友好的用户界面,用户可轻松地依照个人需求,选择合适的模板快速搭建Bot

  • 核心技术

    • 自研AI框架和加速算子

      自研训练框架打造核心加速算子集合,支持多维度混合全自动并行,提供万卡级超大规模异构模型训练能力,自动兼容英伟达和国产芯片,实现与头部训推框架的无缝对接,覆盖目前行业全部主流开源大模型

    • 全链路训推一体加速

      通过 3D 并行加速优化(流水线并行、模型并行、数据并行),将训练性能提升20%。推理能力方面,在国产昇腾上的推理性能达到英伟达 A100的80%以上

    • 大规模容器纳管调度

      慧聚平台进行万卡纳管调度,建立弹性扩缩容,大大提升算力利用率,并确保容器运行环境的稳固和数据的安全。采用多种策略和技术,‌能够减少故障恢复的时间和资源消耗,‌提高系统的可靠性

    • 高效故障恢复

      实现容器故障动态感知和任务断点续训。达到1分钟检测、10分钟定位、30 分钟恢复,支持多种训练框架,覆盖70%的故障场景,最小化对用户的影响,保障业务的连续性

  • 多种交付形态

    支持公有云、混合云和轻量化部署的多模式交付能力,提供安全、灵活、可扩展的技术解决方案,满足用户多样化的业务及运维需求

    • 公有云

      基于公共资源池,提供训练和推理服务 即开即用,弹性计费,灵活可靠 全天候7x24小时专业服务

    • 混合云

      适配国产芯片,支持多种异构算力 面向大规模算力运营场景,提供端到端解决方案,全栈I+P智算系统交付,资源数据安全可控

    • 轻量化

      支持国产芯片及A100,支持云主机、裸金属纳管 面向小规模训推一体项目,部署仅需200核 与IaaS层低耦合,支持服务器裸机纳管

  • 安全保障

    通过用户级别封禁策略保障模型服务内容安全,限制恶意攻击对平台的伤害,包含黑名单管理、白名单管理、AK黑名单管理、风险词表热更新等功能

    • 规则黑名单管理

      支持精准匹配、包含匹配和模式匹配三种规则类型,输入相关语句即可完成黑名单操作

    • 规则白名单管理

      支持精准匹配和模式匹配两种规格类型,输入相关语句即可完成白名单操作

    • AK黑名单管理

      支持有期限封禁(1天、2天、3天、1周)和永久封禁两种策略类型,输入AK即可完成封禁管理

    • 风险词表热更新

      支持对黑名单词表、白名单词表和敏感名单词表进行热更新,上传词表文件即可完成风险词表热更新

Comments