在网络通信领域的国际顶会SIGCOMM2024上,阿里云6篇论文被收录。
其中最引人注目的是介绍其最新一代智算集群网络架构HPN7.0的论文,该论文也是SIGCOMM历史上首篇关于AI智算集群网络架构的论文。
据介绍,HPN 7.0架构是为满足AI时代对网络高性能需求而研发的,它创新性地设计了双上联 多轨 双平面”的网络架构。
同时还配备了51.2Tbps单芯片以太网交换机和400G高性能网卡,以及自研的Solar-RDMA和ACCL通信库。
这些技术的应用使得HPN 7.0能够实现单层千卡、两层万卡的高性能和高稳定互联。
自2023年9月起,HPN 7.0已在阿里云进行大规模部署,显著提升了大模型训练性能,并大幅提高了智算网络的整体稳定性。
基于HPN 7.0架构训练的通义千问2.5版本大模型,在理解能力、逻辑推理、指令遵循、代码能力等方面均有显著提升,中文性能全面赶超GPT-4 Turbo。
阿里云基础设施网络负责人蔡德忠表示,HPN 7.0的推出是阿里云自2017年以来在端网融合可预期网络技术体系探索上的又一里程碑。
这一全新的网络集群架构创新,有望成为下一代AI高性能网络架构的新范式,与谷歌的Jupiter网络相媲美,后者曾被SIGCOMM收录并成为业界经典。