在江蘇昆山舉行的光合組織 2025 人工智能創(chuàng)新大會(HAIC2025)上,中科曙光今日發(fā)布并展出了大規(guī)模智能計算系統(tǒng) —— scaleX 萬卡超集群,這也是國產(chǎn)萬卡級 AI 集群系統(tǒng)首次以真機形式亮相。

中科曙光高級副總裁李斌介紹,scaleX 萬卡超集群是曙光發(fā)揮大型計算機系統(tǒng)研制經(jīng)驗優(yōu)勢,面向萬億參數(shù)大模型、科學智能等復雜任務場景打造的大規(guī)模智能算力基礎設施方案。面對人工智能基礎設施對性能、效率、可靠性、可擴展性等方面的極致需求,scaleX 萬卡超集群在超節(jié)點架構(gòu)、高速互連網(wǎng)絡、存儲性能優(yōu)化、系統(tǒng)管理調(diào)度等方面實現(xiàn)了多項創(chuàng)新突破,部分技術與能力已超越海外同類產(chǎn)品研發(fā)路線圖的 2027 年 NVL576 里程節(jié)點。
附 scaleX 萬卡超集群的核心技術優(yōu)勢如下:
-
• 優(yōu)勢 1:全球首創(chuàng)單機柜級 640 卡超節(jié)點。scaleX 萬卡超集群由 16 個曙光 scaleX640 超節(jié)點通過 scaleFabric 高速網(wǎng)絡互連而成,可實現(xiàn) 10240 塊 AI 加速卡部署,總算力規(guī)模超 5EFlops。作為世界首個單機柜級 640 卡超節(jié)點,scaleX640 采用超高密度刀片、浸沒相變液冷等技術,將單機柜算力密度提升 20 倍,PUE 值低至 1.04。
-
• 優(yōu)勢 2:自主研發(fā)原生 RDMA 高速網(wǎng)絡。曙光 scaleFabric 網(wǎng)絡,基于國內(nèi)首款 400G 類 InfiniBand 的原生 RDMA 網(wǎng)卡與交換芯片,可實現(xiàn) 400Gb/s 超高帶寬、低于 1 微秒端側(cè)通信延遲,超節(jié)點間的通信性能達到業(yè)內(nèi)領先水平,充分釋放萬卡超集群算力,并可將超集群規(guī)模輕松擴展至 10 萬卡以上,相比傳統(tǒng) IB 網(wǎng)絡提升 2.33 倍,同時網(wǎng)絡總體成本降低 30%。
-
• 優(yōu)勢 3:存、算、傳緊耦合深度優(yōu)化。通過“超級隧道”、AI 數(shù)據(jù)加速等設計,實現(xiàn)從芯片級、系統(tǒng)級到應用級的三級數(shù)據(jù)傳輸協(xié)同優(yōu)化,使存力平臺高效應對大模型訓練時萬卡并發(fā)讀寫帶寬極致需求挑戰(zhàn),提升高通量 AI 推理時的響應速度與結(jié)果精準度,并可將 AI 加速卡資源利用率提高 55%。
-
• 優(yōu)勢 4:超集群數(shù)字孿生與智能調(diào)度。通過物理集群數(shù)字孿生,實現(xiàn)故障定位、修復等全流程可視化智能管理;智能化運維平臺可支撐集群長期可用性達 99.99%;智能調(diào)度引擎可管理萬級節(jié)點、服務十萬級用戶,支持每秒萬級作業(yè)調(diào)度。
scaleX 萬卡超集群可支持多品牌加速卡以及主流計算生態(tài),并實現(xiàn) 400+ 主流大模型、世界模型等適配優(yōu)化。在實際應用中,該超集群可覆蓋大模型訓練、金融風控、地質(zhì)能源勘探及科學智能等多元場景。 |