点击右上角
微信好友
朋友圈

请使用浏览器分享功能进行分享

11月6日,2025年世界互联网大会领先科技奖颁奖典礼在浙江乌镇举行,17个具有国际代表性的年度获奖项目现场发布。之江实验室申报的“南湖计算框架”项目获奖。

“南湖计算框架”项目获奖,之江实验室研究专家薛辉在现场介绍相关情况。光明网记者 赵金悦/摄
之江实验室研究专家薛辉表示,南湖计算框架是一套“算、网、存”高效协同的大规模智算框架。框架全面兼容主流品牌的多种加速卡,攻克跨品牌异构协同难题,首次实现多异构加速卡卡间GPU Direct RDMA高速直联集合通信。
薛辉介绍,该项目通过重构集合通信架构,首创实现通信对计算资源零占用;支持多种加速卡FP8混合精度训练,结合通信、显存优化,模型训练效率提升30%以上;首创异构集群模型训练自动调优框架,调优成本降低90%以上;首次提出分层参数共享精调方法,减少44.59%精调参数量;首创分层缓存管理策略,实现参数更新性能提升3.07-4.99倍,查询性能提升5.87倍,有效加速梯度累积与稀疏更新等场景。
“南湖计算框架实现集群秒级故障检测,万卡集群可用率跃升至97%,实现故障智能感知与智能排障,大语言模型训练有效时长占比提升至98.1%。”薛辉提到,目前,该框架已应用于万亿参数大语言模型训练,支持跨异构加速卡混合训练,兼具高兼容性、高稳定性和低成本优势,将推动异构集群的高效协同与产研应用。(文/记者 任子薇整理 视频/记者 范子川)
