AI 工廠的發展需要全新的運算基礎設施,與傳統資料中心不同,AI 工廠透過將大量資料轉換為即時洞察,實現智慧的製造。這一目標要求在低成本的情況下,能夠快速且準確地提供服務。隨著 AI 模型變得更為複雜,每個詞元的計算需求不斷增加,如何維持高推論效率並降低成本,成為挑戰。為此,必須在硬體、網路系統及軟體堆疊的各個層面進行創新。
在此次測試中,MLPerf Inference 基準新增了 Llama 3.1 405B 這一開放權重模型,其規模巨大且運行難度高,並要求更嚴格的延遲條件,能更真實地反映生產部署環境的挑戰。與 Llama 2 70B 相比,新的測試對效能的要求更高,特別是在回應用戶查詢方面,延遲要求更加嚴苛。
搭載 72 顆 NVIDIA Blackwell GPU 的 GB200 NVL72 系統,其在 Llama 3.1 405B 測試中的效能比使用 NVIDIA H200 NVL8 提交的結果高出 30 倍。這一成就源自於每顆 GPU 效能的三倍提升,並且在 NVIDIA NVLink 互連網域的支持下,帶來九倍的效能增長。

NVIDIA 也在測試中展示了 Hopper 平台的卓越效能,該平台支援了各種工作負載,並在 Llama 2 70B 上取得了顯著提升。相較於去年,Hopper 平台的效能提升了 1.5 倍,並且支援了更大規模的 AI 模型與更具挑戰性的使用情境。
15 家合作夥伴在此次測試中也取得了優異成績,包括華碩、思科、CoreWeave、戴爾科技集團、富士通、技鋼科技(Giga Computing)、Google Cloud、慧與科技、Lambda、聯想集團、Oracle Cloud Infrastructure、雲達科技、美超微、Sustainable Metal Cloud 和 VMware。
MLCommons 致力於持續發展 MLPerf Inference 基準套件,以跟上 AI 領域的最新發展,並為生態系提供嚴謹且經同業審查的效能數據,這對協助 IT 決策者選擇最佳的 AI 基礎架構而言至關重要。