中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先

快科技9月20日消息,中国电信宣布,天翼云自研的国内首个单集群万卡国产化全功能预训练云服务平台,已经正式发布上线,基于华为昇腾芯片,并完成了万卡规模Llama3.1-405B大模型训练。

Llama3.1-405B作为4000亿参数规模的大模型,在息壤训推服务平台的支持下,经过多轮优化,MFU(算力利用率)达到国内领先水平。

另外,700亿参数大模型Llama2-70B在万卡规模下完成训练,MFU也处于业界领先水平。

中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型

据悉,天翼云的这套平台具备万卡纳管和并行训练能力,基于HPFS PB级并行文件系统、CTCCL RDMA高速卡间互联技术、Gang策略与拓扑感知的智算容器调度,以及慧聚自研分布式训练框架TeleFormers和平台,实现万卡资源纳管、万卡规模并行训练。

其中,天翼云自研了AI框架Teleformers,对算子、通信、数据处理进行优化,还有并行策略的自适应调整,显著提升了大模型训练的训练效率。

在目前业内最大参数规模开源单体稠密模型Llama3.1-405B大模型训练测试中,性能表现达到国际同等水平。

算子优化方面,针对昇腾芯片的特性,在网络结构层面对诸多高频算子进行了定制化改造,构建了高性能算子集。

比如matmul算子,利用昇腾芯片的计算亲和性,将算子输入padding到特定的维度,大幅提升执行效率,从而明显缩短了训练时间。

数据处理和流水线方面,通过设置合理的数据分片策略和HPFS条带化优化,结合数据预取与数据下沉技术,大幅提升数据流的处理效率和稳定性;对预处理后的数据集进行了二次分片并提供就近缓存能力,减少GPU空闲时间。

中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型

自适应并行策略方面,基于对3D并行中各类计算单元的分析,天翼云设计了多种自适应的3D并行策略,依据模型规模和硬件资源的不同可以自动选择合适的并行策略,充分利用计算资源和显存资源,缩短模型训练中每轮的迭代时间。

中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型

天翼云国产化万卡智算中心还有多项技术突破——

天翼云息壤训练服务平台基于软硬件协同设计,提供全链路故障监控、基于主动感知的全链路故障监控和定位、CheckPoint秒级多级高速存储系统、容错优雅调度和模型编译缓存等系统,将万卡规模故障发现和解决问题缩短到业内前沿的分钟级,大幅提升有效训练时间。

自动断点续训系统:

建设丰富的故障库,基于此构建了多维故障感知系统,能够快速主动感知相关故障事件和潜在的故障风险;

通过精准的故障隔离和调度手段,快速隔离处理故障节点并重新调度新节点接手任务继续训练,实现无人干预式断点续训,有效减少GPU闲置时间。

中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型

高速多级CheckPoint系统:

天翼云设计基于多级存储的高速CheckPoint系统,通过两阶段异步存储,实现高速写入内存,并最终异步写入远端系统;

针对断点恢复场景,提供进程级故障原地快恢和远端快速恢复能力,最终实现对CheckPoint的秒级读写能力,大幅降低断点恢复时间、提升训练效率。

中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型

全链路检测工具链:

天翼云开发了全链路故障监控工具链,能够基于主动感知实现全链路的故障监控和定位。

该工具链可以主动发现设备故障,并降低训练中断的频次,确保训练过程的连续性和稳定性。

以上就是关于【中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先】的相关消息了,希望对大家有所帮助!

文章来源于网络。发布者:北方经济网,转转请注明出处:https://www.hujinzicha.net/2024/09/20/22969.html

(0)
北方经济网的头像北方经济网
上一篇 2024 年 9 月 20 日 下午4:15
下一篇 2024 年 9 月 20 日 下午4:15

相关推荐

  • 2499元起 OPPO Reno12晨雾蓝明天首销:最轻薄的等深四曲屏手机

    快科技8月7日消息,OPPO预告,Reno12晨雾蓝将于明天正式首销,起售价是2499元。 据悉,Reno12晨雾蓝采用新一代晶钻玻璃,经雾面磨砂处理,不留指纹,仿佛清晨带着薄雾的水面,辨识度极高。 并且Reno12延续了OPPO Reno系列的轻薄传统,其重量只有179g,厚度只有7.25mm,是迄今最轻薄的等深四曲屏手机。 相比传统的曲面屏,等深四曲屏的…

    2024 年 8 月 7 日
    3100
  • 九州风神推出冰阵AIO水冷散热器:全新点阵屏设计

    快科技9月10日消息,九州风神推出了新款一体式水冷散热器,首批提供240mm和360mm两种规格。新产品的水冷头采用了全新的点阵屏设计,支持显示图像和动画,带来了独特的视觉效果。 新品整体以深邃黑色为主调,彰显高端质感。其导液管长度达到410mm,确保灵活布局,适应多种机箱环境。水冷头外壳及侧边匠心独运,采用透明ARGB光环点阵屏设计,无缝集成主流主板5V …

    2024 年 9 月 10 日
    1200
  • A股三大指数午间休盘涨跌不一,沪指失守2800点

    36氪获悉,A股三大指数午间休盘涨跌不一,沪指跌0.52%失守2800点,深成指涨0.82%,创业板指涨0.9%;锂电池、固态电池概念大涨,金银河,南都电源涨停;中船系走强,昆船智能、中船科技涨停,中船汉光涨超10%;银行、煤炭、电力等红利板块下挫,中国广核跌超5%,中国核电、农业银行跌超4%,中国银行跌超3%。

    2024 年 9 月 3 日
    2400
  • 首搭环形闪光灯!荣耀Magic 7渲染图曝光

    快科技8月19日消息,据爆料博主智慧皮卡丘透露,荣耀新一代旗舰机Magic 7将继续采用圆形和多边形这两种造型作为外观设计方案,并首次采用环形闪光灯。 从荣耀Magic 7的渲染图中可以观察到,其相机模组由三种不同的镜头组成,并首次在荣耀手机上引入了环形闪光灯设计。 具体来说,荣耀Magic 7手机在其左上角配备了一个环形闪光灯,为拍照提供了新颖的光源支持。…

    2024 年 8 月 19 日
    2500
  • 俄罗斯公布空间站路线图:2027年开始建设 紧跟中国

    快科技7月23日消息,据国外媒体报道称,俄罗斯宇航局公布了空间站和相关地基基础设施的全面路线图,最快会在2027年开始建设。 按照俄罗斯宇航局公布的情况,将于2027年开始建设自己的轨道空间站。 计划在2027年底首先发射研究与能源舱段,并在2028年至2030年发射连接舱、过渡舱、基础舱和专用舱等。俄罗斯宇航局说道。 与国际空间站俄罗斯舱段相比,设计中的俄…

    2024 年 7 月 24 日
    3600

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

关注微信