您當前的位置:首頁頭號正文

百度領先-百度智能云推出新一代高性能AI計算集群

2022-03-15 14:56:01
百度智能云新一代高能AI計算集群落地,提供EFLOPS級算力支持,并發(fā)布新一代GPU服務器實例GPU-H5-8NA100-IB01。該集群基于NVIDIA A100-80GB GPU和NVIDIA InfiniBand網(wǎng)絡構(gòu)建,成為領先的AI原生云算力底座。

研究人員可基于全新發(fā)布的實例組建上千節(jié)點規(guī)模的超高能計算集群,成倍縮短超大AI模型的訓練時間,激發(fā)AI業(yè)務創(chuàng)新想象力。

新的GPU服務器實例采用百度自研的X-MAN架構(gòu)的超級AI計算機為硬件臺。

X-MAN自2016年推出以來,已在鳳巢、自動駕駛、自然語言處理等百度內(nèi)部業(yè)務進行大規(guī)模應用多年,申請六項專利,包括PCie Fabric架構(gòu)、液冷技術、最大支持64GPU卡擴展等,是百度AI業(yè)務快速落地的重要基礎設施。

目前,X-MAN已經(jīng)全面升級到第四代X-MAN 4.0,為AI和HPC等計算場景進行了新的優(yōu)化設計。

配置方面,每臺X-MAN 4.0包含8張NVIDIA A100-80GB GPU,并可支持8張200Gb/s 的InfiniBand網(wǎng)卡,實現(xiàn)了高速存儲、高速無阻網(wǎng)絡、高能計算于一體的超級AI計算機。

架構(gòu)方面,X-MAN 4.0全新設計的架構(gòu)縮短了數(shù)據(jù)傳輸延遲,提高了數(shù)據(jù)傳輸帶寬,有效解決本地數(shù)據(jù)傳輸?shù)耐ㄐ牌款i,降低AI作業(yè)中GPU的閑置時間。在MLCommons 1.1榜單中,X-MAN 4.0在同配置單機硬件能名列TOP2。

為了實現(xiàn)更高的集群運行能,百度智能云專門設計了適用于超大規(guī)模集群的InfiniBand網(wǎng)絡架構(gòu)。這個架構(gòu)優(yōu)化了網(wǎng)絡收斂比,提升了網(wǎng)絡吞吐能力。并結(jié)合容錯、交換機親和,拓撲映射等手段,得以將EFLOPS級算力的計算集群能發(fā)揮到極致。

經(jīng)過內(nèi)部NLP研究團隊的驗證,在這個網(wǎng)絡環(huán)境下的超大規(guī)模集群上提交千億模型訓練作業(yè)時,同等機器規(guī)模下整體訓練效率是普通GPU集群的3.87倍。

百度副總裁謝廣軍先生表示:“AI原生云是推動企業(yè)智能化升級的核心驅(qū)動力。作為中國AI公有云服務市場領跑企業(yè),百度智能云一直在優(yōu)化提升智能計算的核心能力。X-MAN 4.0助力百度內(nèi)部業(yè)務發(fā)展的同時,我們也愿意將這一領先的架構(gòu)開放給百度智能云的眾多客戶,幫助大家一起更高效地進行AI研發(fā)與探索,驅(qū)動業(yè)務創(chuàng)新,邁向AI原生。”

為了幫助客戶更深入地了解新的GPU服務器實例,以及超大規(guī)模的高能集群構(gòu)建的技術細節(jié),百度智能云將與NVIDIA 于3月16日晚19:00舉辦在線研討會進行詳細分享,解答客戶的問題。直播臺在B站(百度智能云的朋友們)、視頻號(百度智能云)。

“如果發(fā)現(xiàn)本網(wǎng)站發(fā)布的資訊影響到您的版權,可以聯(lián)系本站!同時歡迎來本站投稿!

虛擬

未來