点击右上角微信好友
朋友圈
请使用浏览器分享功能进行分享
11月19日,2024年世界互联网大会领先科技奖颁奖典礼在浙江乌镇举行,20个具有国际代表性的年度获奖项目现场发布。腾讯科技(深圳)有限公司联合北京大学、北京科技大学共同申报的“Angel 大规模机器学习平台关键技术与应用”项目获奖。
“Angel 大规模机器学习平台关键技术与应用”项目获奖,腾讯公司副总裁蒋杰在现场介绍项目情况。光明网记者 潘迪摄/光明图片
大模型时代,模型参数超过万亿,训练数据超过十万亿,如此庞大的规模,给模型训练和推理带来了通信挑战、效率挑战、规模挑战。腾讯公司副总裁蒋杰介绍,为应对这些挑战,腾讯全链路自研了Angel机器学习平台。
在通信方面,从网卡到交换机,再到路由协议,腾讯自研的RDMA网络实现了集群高速互联,单节点带宽达到3.2T。在效率方面,自研了训练/推理框架,相比开源框架,训练性能提升2.6倍,推理速度提升2.3倍。在规模方面,采用了GPU拓扑感知调度,实现了单任务万卡的线性扩展。
据介绍,Angel平台已获得多项行业奖项,并广泛应用在大模型、广告、推荐、社交、金融等领域,正助力实体产业升级和数字经济发展,推动技术进步,引领产业创新。(文/记者 李飞整理)