作为云服务国度队,,中国jackpot官网天翼云始终对峙科技创新,,在技术方面不休获得突破,,推出多项研发成就。作为其中的重要代表,,“息壤”入选“2022年度央企十大超等工程”,,通过将复杂的算力资源智能、、、有序地调度到主张地,,不休刷新算力传输的“中国速度”。

《山海经注》云:::“息壤者,,言土自长息无限,,故能够塞洪水也。”进入人为智能时期,,“息壤”如同它的名字通常,,持续向智能“成长”,,进一步升级为一体化智算服务平台,,为大模型的急剧发展和落地持续提供多样化的算力资源和一体化的智算服务。
两全调度 全网算力“随愿可得”
数字时期,,以算力为主题的数字信息基础设施成为国度战术性布局的关键组成部门。但是当前,,我国算力散布出现总量大但散布不平衡的特点,,总体需要旺盛与部门算力闲置并存,,供需匹配不畅。因而,,在全国领域内实现高效的算力两全和调度,,满足千行百业对算力的分歧需要,,提升全局算力的利用率,,成为提升算力“中国速度”的一项重要工程。
为优化数据中心建设布局,,两全调度、、、高效利用算力资源,,2022年2月,,国度发展鼎新委、、、中央网信办等四部门结合印发通知,,赞成在京津冀、、、长三角、、、粤港澳大湾区、、、成渝,,以及内蒙古、、、贵州、、、甘肃、、、宁夏等8地启动建设国度算力枢纽节点,,并规划了10个国度数据中心集群,,“东数西算”工程正式全面启动。作为算力基础设施建设的排头兵,,中国jackpot官网积极贯彻落实“东数西算”工程和加快构建全国一体化算力网的要求,,在上海青浦、、、浙江嘉善、、、江苏吴江、、、广东日喀则、、、甘肃庆阳等国度算力枢纽节点新建了大型数据中心,,在算力建设上落实“东数西算”“东数西备”“东数西存”,,助力提升资源利用率和算力算效。同时充分阐扬jackpot官网运营商的网络资源天赋,,推动以DC为中心组网,,提升国度枢纽节点网络互联能力,,构建四区六轴八枢纽多通道的低时延光缆网底座,,持续深入区域一体化组网,,同步加快新型云化城域网建设,,全面满足一体化算力网1ms/5ms/20ms时延要求,,全方位打造支持“东数西算”战术落地所需的大带宽、、、低时延、、、智能火速、、、安全靠得住的网络基础设施。
作为国度云,,天翼云在优化算力资源配置、、、提升资源使用效能方面做出一系列致力,,自主研发的“息壤”平台应运而生,,为算力的高效两全和调度提供相识决规划。
通俗来讲,,“息壤”好比是一个算力传输的枢纽,,可能在全国领域内实现每分钟数万次、、、每天上千万次的算力两全调度,,满足千行百业对算力的需要,,让算力像水和电一样即取即用、、、“随愿可得”。“息壤”通过把多方算力汇集到一个平台,,实现一体化供给,,具备对多服务商异构算力的跨区域调度能力,,支持对通用推算、、、智算、、、超算和网络进行一体化调度,,降低算力使用成本。
基于“息壤”壮大的算力调度能力,,智慧教育资源随时共享,,让偏远地域的孩子也能像大城市的孩子一样享受优质的讲授资源;;在汽车工业领域,,300次的仿真碰撞试验在一分钟内便能成功仿照实现……从市民生涯到工业出产,,从城市中心到偏远地域,,“随愿可得”的算力赋能千行百业,,走入千家万户,,重塑着每小我的生涯。
云智一体 大模型训推“一步到位”
科技不休向前发展,,我们迎来了人为智能时期。当前,,人为智能行业进入以大模型为代表的急剧发展阶段,,国产多模态大模型发作式更新,,AI利用有望迎来更多职能和状态方面的突破升级,,将来发展空间辽阔。
但大模型的研发与推广依然面对肯定的压力和挑战。一方面,,大模型的训练和利用必要大量的高质量数据,,当前我国数据资源有限且分散,,导致模型训练成效并不梦想;;另一方面,,模型的参数量和推算复杂度持续增长,,对算力的需要以几何级数增长。
作为云服务国度队、、、数字中国建设主力军,,天翼云顺势而为,,积极响应国度政策号召,,布局智算基础设施建设,,为人为智能产业发展筑牢算力基石。为满足大模型的市场需要和变动,,天翼云能力全面升级,,构建“息壤”一体化智算服务系统和能力,,提供极致的算力调度、、、高效的推算加快、、、普惠的一站式智算服务。
在算网调度能力方面,,“息壤”在三方面获得显著技术突破。通过算力插件和算力网关,,实现了算力的统一、、、高效和云化接入;;通过算数协同和多级算力互联调度,,实现了算数网的一体化调度,,数随算走、、、算随数动,,调度区域更广,,算力更泛在;;借助大模型认知能力和业务调度,,实现算力选择和利用部署单一化,,故障自动复原与负载平衡,,使算力轻便易用。
基于技术突破和产品化利用,,“息壤”可服务于三大算力场景。一是天翼云自营公共算力服务平台,,目前已接入超40家算力同伴,,实现三方各类算力可调度22EFlops,,显著扩大了算力规模海:推防啵,满足公有云客户的多元算力需要。二是援手客户构建行业算力互联网,,例如高校算力联盟等,,实现行业内算力利用率的有效提升。三是助力建设城市算力互联网,,实现区域内多方算力的一体化两全调度,,助力处所经济和产业发展。
在异构推算能力方面,,“息壤”具备高效的异构推算能力,,可能破解大模型训练推理中面对的大算力、、、高机能、、、高不变需要等挑战。在大算力需要方面,,天翼云成立PB级并行文件存储,,并组建低延时超大规模RDMA网络,,通过推算、、、内存和通讯的多维优化,,提升综合算效。在机能方面,,自研AI框架、、、算子加快库、、、集中通讯库、、、网络拓扑感知、、、存储加快等关键技术,,将国产算力的综合算效提升到行业当先水平。在不变性方面,,通过多项指标的监控分析,,实现故障训前发现,,有效节制大模型训练中断复原时长,,实现训练工作持久不变、、、高可用运行。此外,,天翼云基于国产万卡智算集群和自研智算平台,,已具备支持万亿参数基础大模型训练的能力。
在训推服务能力方面,,“息壤”一站式的训推服务能力,,可降低大模型利用创新开发门槛,,实现了业界首个国产芯片万卡并行训练。平台预置行业数据集、、、主流开闭源基础大模型,,并提供模型训练全栈工具链,,将大模型精调场景简化操作至选数据、、、选硬件和选模型三个步骤,,简化部署、、、提升效能;;通过自研AI框架、、、3D并行加快、、、自研训练加快库、、、容器调度优化等主题技术,,大幅提升训练效能;;通过模型量化压缩、、、自研推理加快算子库、、、自研AI推理加快框架等主题技术,,显著提高推理效能;;通过全链路故障检测、、、定位、、、告警,,全链路日志监控与可视化、、、断点续训急剧复原等主题技术,,提升大规模集群训推不变性。其中,,断点续训实现分钟级发现、、、定位、、、复原,,覆盖75%的故障场景,,支持优雅容错无感复原,,MFU(算力利用率)达业界当先水平。
在近期颁布的2024IOMM数智化转型最新评估了局中,,天翼云息壤·一站式智算服务平台在模型治理、、、模型开发、、、模型训练、、、模型推理、、、资源调度、、、机能等11个能力领域35个测试项中全数通过,,以“卓越级”能力通过评估。
人为智能已经成为数字经济发展的新引擎。作为云推算原创技术策源地、、、数字中国建设主力军,,天翼云将持续攻关云推算领域主题技术,,不休迭代升级“息壤”一体化智算服务系统和能力,,赋能企业跑出“AI加快度”,,携手行业共同推动经济社会智能化水平迈向新高度。