连续无故障训练15天!摩尔线程发布夸娥智算集群KUAE 1.2

快科技8月19日消息,摩尔线程正式发布了夸娥智算集群KUAE 1.2版本,通过软硬件层面的综合性优化,在功能、性能上多维升级,更高效、稳定,对生态系统更友好,可为大模型训练提供更坚实可靠的算力支撑。

夸娥1.2主要升级点:

▼MFU提升10% 最高可达55%

在新版本中,使用千卡集群训练千亿模型,MFU(模型算力利用率)提升10%。

稠密模型集群训练中,MFU最高达到55%。

▼Flash Attention2优化

通过集成最新的MUSA SDK平台与优化后的Flash Attention2技术,结合新版Torch MUSA和算子融合,显著提升了大模型训练的效率与资源利用率,大幅缩短训练周期,并降低了整体成本。

▼64K长文本支持

增强了对长文本大模型训练的支持,优化了处理长文本理解和生成任务的能力,能够更好地应对文档摘要、文章写作等复杂语言处理任务。

▼支持混合专家模型MoE

MCCL通信库完成了All2All优化,并针对muDNN算子在不同形状下的矩阵运算进行了优化,以更好地支持MoE(Mixture of Experts)大模型的训练。

这不仅提升了智算效率,还为更大规模参数的大模型训练提供了高度可扩展的基础。

▼断点续训

进一步提升了大模型训练的Checkpoint(检查点)读写性能,写入时间小于2秒,显著提高训练效率。

▼优化DeepSpeed

支持DeepSpeed、Ulysses的适配和性能优化,强化了长文本训练支持。

适配国内外多款大模型,在Hugging Face上支持训练和微调主要的开源大模型,创新型企业可以灵活选择不同的大模型开发智能应用。

▼稳定性提升

千卡集群软硬件进一步成熟,实现了连续无故障训练长达15天。

新版本引入了KUAE Aegis可靠性功能,加强了对GPU、显存、集合通信等方面的监控、自动诊断与故障恢复能力。

▼可视化/可观测

引入了PerfSight性能监控系统,可实时显示模型训练过程中的资源消耗与性能分析数据,有助于快速发现并恢复训练期间的故障,满足大模型上的性能调优需求。

▼内置模型库中新增大模型

KUAE内置模型库Model Zoo新增LLaMA2全系列大模型、百川、雅意、Qwen2、Mixtral(MoE 8x7B)等模型。

连续无故障训练15天!摩尔线程发布夸娥智算集群KUAE 1.2

以上就是关于【连续无故障训练15天!摩尔线程发布夸娥智算集群KUAE 1.2】的相关消息了,希望对大家有所帮助!

文章来源于网络。发布者:北方经济网,转转请注明出处:https://www.hujinzicha.net/2024/08/19/14638.html

Like (0)
北方经济网的头像北方经济网
Previous 2024 年 8 月 19 日 下午10:03
Next 2024 年 8 月 19 日 下午10:03

相关推荐

  • 淘宝和微信支付“好”上了,打翻了支付宝的“醋坛子”?

    文:互联网江湖 作者:刘致呈 最近,淘宝将全面接入微信支付的消息,在整个互联网圈里炸开了锅。 虽说阿里系平台与腾讯之间“拆墙”的消息,早就不算是啥新鲜事了。而且进一步互联互通,无论是对广大用户,还是现在的淘天和腾讯来说,也绝对算得上是双赢。 只不过,真当这么一天即将到来的时候,有不少人还是会为这场世纪大和解而感到唏嘘,同时也更加好奇,“这事儿让阿里系亲儿子的…

    2024 年 9 月 7 日
    7800
  • 中汽研公布2024中国十佳车身:小米SU7、理想L6在列

    快科技9月30日消息,近日,由权威机构中国汽车技术研究中心有限公司、中国钢研科技集团有限公司以及湖南大学联合举办的2024中国十佳车身评选活动落下帷幕。 在活动中正式揭晓了2024中国十佳车身评选结果,具体获奖名单如下(排名不分先后): 风行星海V9、红旗国雅、极狐阿尔法S5、极氪001FR、理想L6、零跑C16、奇瑞瑞虎8L、小米SU7、小鹏X9以及本田烨…

    2024 年 9 月 30 日
    7000
  • 陪伴式观赛中国女篮vs波多黎各 生死战全力以赴

    中国女篮在巴黎奥运会A组小组赛的第二战中遭遇挫折,以58比81负于塞尔维亚队,连续第二次失利。这一结果使中国女篮在小组中以-23的净胜分垫底,面临严峻形势:下一场比赛对阵波多黎各,若再次失败,则直接淘汰。 即便能赢得对波多黎各的比赛,净胜分若在与其他小组第三名的比较中处于劣势,同样难逃淘汰命运。目前,A、B、C三组末位队伍的净胜分中,中国女篮以-23位列倒数…

    2024 年 8 月 3 日
    7900
  • 美国的三倍!全球已授权AI专利61.1%来自中国

    快科技9月30日消息,据媒体报道,斯坦福大学最新发布的《2024年人工智能指数报告》显示,在全球范围已授权的人工智能专利中,有超过61.1%来自中国,而来自美国的占20.9%。 报告指出,过去十年来,人工智能专利的数量显著增加,中国和美国在这一领域的竞争尤为激烈。 《报告》显示,2023年,著名机器学习模型总数排名前三的国家分别为美国、中国和法国,其中,美国…

    2024 年 9 月 30 日
    6200
  • 假期有一种热,叫钓鱼热

    ​ 作者 | 归去来 编辑 | 计然 美国前总统胡佛在《钓鱼的乐趣》一书中写道,“鱼儿面前人人平等”,这正是古今中外无数男性为了钓鱼而疯狂的重要原因。 对钓鱼疯狂的中年男性,既让今年7月@铜山融媒直播间因钓鱼小伙的偶然入境,直播间在线人数从不足两位数到破千万级。无数网友就是想知道这位小伙是否空军,能钓到几条鱼。 也让被网友称为“钓鱼界天花板”的@天元邓刚粉达…

    2024 年 10 月 2 日
    6300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信