|

楼主 |
发表于 2025-3-24 21:08:54
|
显示全部楼层
蚂蚁集团,AI重大突破!自研2900亿大模型用国产AI芯片训练,计算成本508万元低于DeepSeek
3月24日消息,钛媒体AGI获悉,近日,蚂蚁集团CTO、平台技术事业群总裁何征宇带领Ling Team团队,利用AI Infra技术,开发了两个百灵系列开源MoE模型——百灵轻量版(Ling-Lite)和百灵增强版(Ling-Plus),前者参数规模为168亿(激活参数27.5亿),Plus基座模型参数规模高达2900亿(激活参数288亿),两者性能均达到行业领先水平。相比之下,AI行业估计GPT-4.5参数量1.8万亿,DeepSeek-R1参数规模达6710亿。
除了自研性能领先的大模型以外,蚂蚁集团Ling团队发表了技术成果论文。论文显示,该技术论文最大的突破在于提出了一系列创新方法,以提升资源受限环境下AI开发的效率与可及性。实验表明,其3000亿参数的MoE(混合专家)大模型可在使用国产GPU的低性能设备上完成高效训练,性能与完全使用英伟达芯片、同规模的稠密模型及MoE模型相当。
蚂蚁团队在模型预训练阶段使用较低规格的硬件系统,将计算成本降低约20%,达508万元人民币,最终实现与阿里通义Qwen2.5-72B-Instruct 和 DeepSeek-V2.5-1210-Chat相当的性能。目前,蚂蚁集团Ling团队的技术成果论文《每一个FLOP都至关重要:无需高级GPU即可扩展3000亿参数混合专家LING大模型》已发表在预印版Arxiv平台上。
据彭博,该模型在训练阶段使用的是国产AI/GPGPU芯片产品,并非完全使用英伟达芯片,但最终得到的结果与英伟达芯片(如H800)的结果相似。这是蚂蚁集团首次详细披露其在AI算力层面的进展,第一次揭秘了自身如何以远低于DeepSeek、OpenAI等强大模型所需的计算成本,完成AI大模型技术的训练并将其开源,从而加入了中美 AI 科技竞争热潮中。
近年来,大语言模型发展迅速,尤其是DeepSeek热潮,引发学界和业界对通用人工智能(AGI)的广泛讨论,而混合专家(MoE)模型在特定任务中表现优异,但训练依赖高性能计算资源,成本高昂,限制了其在资源受限环境中的应用。
蚂蚁Ling团队认为,虽然MoE模型训练对高性能AI芯片(如H100和H800)需求大,且资源供应,但低性能加速器更易获取且单位成本效益高,因此,模型需要能在异构计算单元和分布式集群间切换的技术框架。同时在AI Infra部分,在跨集群、跨设备的兼容和可靠层面进行性能优化。该公司设定的目标是“不使用高级GPU”来扩展模型。
具体来说,蚂蚁Ling团队在模型训练环境、优化策略、基础设施、训练过程、评估结果、推理等层面都进行优化和落地。其中在预训练层面,蚂蚁构建约9万亿 token 的高质量语料库,采用创新的MoE架构,分析缩放规律确定超参数,多阶段训练并应对瞬时尖峰问题,并且通过优化模型架构和训练策略,如选择匹配架构、集成训练框架、开发XPUTimer和EDiT策略等,提高训练效率。
论文显示,在AI异构计算平台上,技术人员们将多个训练框架集成到统一的分布式深度学习框架中,即开源项目DLRover。同时,为了利用各种平台的具体特性,团队开发了轻量级调试工具XPUTimer,有助于快速、高效进行任务性能分析,并将内存使用量减少90%。而EDiT(弹性分布式训练)则在各种配置下,训练时间最多可减少66.1%。
此外,在存储优化中,通过存储与训练流程的协同设计,提升MoE场景下的I/O效率,通过5000个加速器 MoE 训练任务,将检查点写入延迟降低了50%,减少一半的时间消耗,同时还将训练节点上的峰值内存消耗降低了60%。
蚂蚁技术团队表示,利用Ling-Plus,在五种不同的硬件配置上对9万亿个token进行预训练,其中,使用高性能硬件配置(配置D)训练1万亿token的预训练成本约为635万元人民币,但蚂蚁的优化方法将使用低规格硬件将成本降至508万元左右,节省了近20%的成本。
 |
|