AI 工廠的發展需要全新的運算基礎設施,與傳統資料中心不同,AI 工廠透過將大量資料轉換為即時洞察,實現智慧的製造。這一目標要求在低成本的情況下,能夠快速且準確地提供服務。隨著 AI 模型變得更為複雜,每個詞元的計算需求不斷增加,如何維持高推論效率並降低成本,成為挑戰。為此,必須在硬體、網路系統及軟體堆疊的各個層面進行創新。

在此次測試中,MLPerf Inference 基準新增了 Llama 3.1 405B 這一開放權重模型,其規模巨大且運行難度高,並要求更嚴格的延遲條件,能更真實地反映生產部署環境的挑戰。與 Llama 2 70B 相比,新的測試對效能的要求更高,特別是在回應用戶查詢方面,延遲要求更加嚴苛。

搭載 72 顆 NVIDIA Blackwell GPU 的 GB200 NVL72 系統,其在 Llama 3.1 405B 測試中的效能比使用 NVIDIA H200 NVL8 提交的結果高出 30 倍。這一成就源自於每顆 GPU 效能的三倍提升,並且在 NVIDIA NVLink 互連網域的支持下,帶來九倍的效能增長。

NVIDIA 首次使用專為 AI 推理作業設計的機架規模解決方案 NVIDIA GB200 NVL72 系統來提交 MLPerf 測試報告。NVIDIA提供
NVIDIA 首次使用專為 AI 推理作業設計的機架規模解決方案 NVIDIA GB200 NVL72 系統來提交 MLPerf 測試報告。NVIDIA提供

NVIDIA 也在測試中展示了 Hopper 平台的卓越效能,該平台支援了各種工作負載,並在 Llama 2 70B 上取得了顯著提升。相較於去年,Hopper 平台的效能提升了 1.5 倍,並且支援了更大規模的 AI 模型與更具挑戰性的使用情境。

15 家合作夥伴在此次測試中也取得了優異成績,包括華碩、思科、CoreWeave、戴爾科技集團、富士通、技鋼科技(Giga Computing)、Google Cloud、慧與科技、Lambda、聯想集團、Oracle Cloud Infrastructure、雲達科技、美超微、Sustainable Metal Cloud 和 VMware。

MLCommons 致力於持續發展 MLPerf Inference 基準套件,以跟上 AI 領域的最新發展,並為生態系提供嚴謹且經同業審查的效能數據,這對協助 IT 決策者選擇最佳的 AI 基礎架構而言至關重要。