出處:雷鋒網 作者:楊鯉萍
近日,在荷蘭阿姆斯特丹舉行的 OCP Regional Summit 2019 大會上,百度與浪潮聯合發布了全球首款基于 OCP OAI 標準(開放加速器基礎設施)和液冷的 AI 計算新品 X-MAN 4.0。
X-MAN 4.0 是百度超級 AI 計算平臺 X-MAN 系列產品的第四代,浪潮作為百度的重要合作伙伴之一,一直參與 X-MAN 系列產品的研發和生產,并 X-MAN 4.0 作為其目前在超級 AI 計平臺上的最強有力產品推出。
X-MAN 系列,從 1.0 到 4.0
X-MAN 系列是百度用于超大規模 AI 訓練的專用平臺,已在百度的數據中心大規模應用。其中,第一代 X-MAN 1.0 首次實現了 AI 計算硬件解耦架構;第二代 X-MAN 2.0 首次將冷板式液冷散熱技術應用到 AI 計算產品里;第三代 X-MAN 3.0 則首次提出了模塊化標準化設計的理念。
第四代 X-MAN 4.0 作為全球首款基于 OCPOAI 標準(開放加速器基礎設施)和液冷的 AI 計算新品,平臺的單節點能夠支持 8 個 AI 加速器。這些加速器之間采用了 8port HCM(Hybrid Cube Mesh)的互聯架構,雙向通信帶寬高達 56GBps,充分保證 AI 加速器的性能。
而在單個機柜層面,X-MAN 4.0 最大可支持 32 個 AI 加速器構建互聯集群,很好的增強了平臺可擴展性。
X-MAN 4.0 符合 ODCC 3.0 整機柜規范,高度為 4SU(182.5mm),寬 21 英寸(536.0mm),長度 850mm,支持風冷、液冷散熱方式,并采用了更高效的 48V 供電方式。
百度超級 AI 計算平臺 X-MAN 4.0
OCP 社區與 OAI 標準
OCP(Open Compute Project)即開放計算項目,它是由 Facebook 攜英特爾、Rackspace 等公司于 2011 年成立的一個非營利組織 , 目的是與普通的 IT 產業共享更高效的服務器和數據中心設計。同時,它也是全球云計算基礎硬件技術領域覆蓋面最廣、最有影響力的開源組織。
而 OAI(Open Archives Initiative)標準是 OCP 社區里由百度主導并聯合 Facebook、Microsoft 等針對 AI 硬件加速模塊和系統設計所制定的標準。該標準用于指導 AI 硬件加速模塊和系統設計 , 它集合定義了 AI 硬件加速模塊本身、主板、互聯拓撲、機箱、供電、散熱以及系統管理等一系列設計規范。
目前,OAI 標準也得到了眾多社區成員的支持,包括:Facebook、Microsoft、Google 等互聯網企業,Intel、AMD、高通等 AI 芯片企業,及浪潮、IBM、聯想等系統供應商。
獲得眾多企業成員支持的 OAI 標準
打造全球標準,加速 AI 進程
可以看到,由百度主導的 OAI 標準定義,在一定程度上推動了 AI 新硬件技術全球范圍內的創新與進步。
OAI 標準的推行,不僅能夠直接使得相關廠商統一 AI 硬件加速模塊和系統設計,提高多元化 AI 加速芯片兼容性;而且還有利于促進不同 AI 加速器技術的開放融合,從而讓 AI 計算平臺設計更加敏捷,產業配套更為簡化。
百度副總裁侯震宇曾表示:"OAI 標準將極大提高不同 AI 硬件加速模塊和系統的互操作性,加速新 AI 硬件加速模塊的大規模落地應用,全球 AI 硬件生態系統都會從中受益。" 這也代表了百度將自身在 AI 領域的最佳實踐共享至國際 AI 社區的初心。