技術(shù)
導(dǎo)讀:在網(wǎng)絡(luò)通信領(lǐng)域的國際頂會(huì)SIGCOMM2024上,阿里云6篇論文被收錄。其中最引人注目的是介紹其最新一代智算集群網(wǎng)絡(luò)架構(gòu)HPN 7.0的論文,該論文也是SIGCOMM歷史上首篇關(guān)于AI智算集群網(wǎng)絡(luò)架構(gòu)的論文。
5月14日消息,在網(wǎng)絡(luò)通信領(lǐng)域的國際頂會(huì)SIGCOMM2024上,阿里云6篇論文被收錄。
其中最引人注目的是介紹其最新一代智算集群網(wǎng)絡(luò)架構(gòu)HPN 7.0的論文,該論文也是SIGCOMM歷史上首篇關(guān)于AI智算集群網(wǎng)絡(luò)架構(gòu)的論文。
據(jù)介紹,HPN 7.0架構(gòu)是為滿足AI時(shí)代對(duì)網(wǎng)絡(luò)高性能需求而研發(fā)的,它創(chuàng)新性地設(shè)計(jì)了“雙上聯(lián)+多軌+雙平面”的網(wǎng)絡(luò)架構(gòu)。
同時(shí)還配備了51.2Tbps單芯片以太網(wǎng)交換機(jī)和400G高性能網(wǎng)卡,以及自研的Solar-RDMA和ACCL通信庫。
這些技術(shù)的應(yīng)用使得HPN 7.0能夠實(shí)現(xiàn)單層千卡、兩層萬卡的高性能和高穩(wěn)定互聯(lián)。
自2023年9月起,HPN 7.0已在阿里云進(jìn)行大規(guī)模部署,顯著提升了大模型訓(xùn)練性能,并大幅提高了智算網(wǎng)絡(luò)的整體穩(wěn)定性。
基于HPN 7.0架構(gòu)訓(xùn)練的通義千問2.5版本大模型,在理解能力、邏輯推理、指令遵循、代碼能力等方面均有顯著提升,中文性能全面趕超GPT-4 Turbo。
阿里云基礎(chǔ)設(shè)施網(wǎng)絡(luò)負(fù)責(zé)人蔡德忠表示,HPN 7.0的推出是阿里云自2017年以來在端網(wǎng)融合可預(yù)期網(wǎng)絡(luò)技術(shù)體系探索上的又一里程碑。
這一全新的網(wǎng)絡(luò)集群架構(gòu)創(chuàng)新,有望成為下一代AI高性能網(wǎng)絡(luò)架構(gòu)的新范式,與谷歌的Jupiter網(wǎng)絡(luò)相媲美,后者曾被SIGCOMM收錄并成為業(yè)界經(jīng)典。