Blackwell Ultra 架構延續前代基礎,提供 1.5 倍 NVFP4 AI 運算效能與 2 倍 attention-layer 加速,每顆 GPU 可搭載最高 288GB HBM3e 記憶體。NVIDIA 在 MLPerf Inference v5.1 全數據中心基準上均創新高,包括 DeepSeek-R1、Llama 3.1 405B Interactive、Llama 3.1 8B 與 Whisper,同時保持每顆 GPU 的領先效能。

這次成績的關鍵在於全端共同設計。Blackwell 與 Blackwell Ultra 導入 NVFP4 資料格式硬體加速,NVFP4 是 NVIDIA 設計的 4 位元浮點格式,具備更佳準確度。TensorRT Model Optimizer 將多種大型語言模型量化為 NVFP4,結合 TensorRT-LLM 程式庫,使效能與準確度兼得。

推論由「情境」與「生成」兩種工作負載構成。NVIDIA 採用「分離式服務(disaggregated serving)」將兩者拆分獨立最佳化,在 Llama 3.1 405B Interactive 基準上表現尤佳,GB200 NVL72 系統的每顆 GPU 效能較傳統 DGX B200 架構提升近 50%。本輪測試亦首次採用 NVIDIA Dynamo 推論框架提交成績。

Azure、Broadcom、Cisco、CoreWeave、Dell、技鋼科技、HPE、Lambda、Lenovo、Nebius、Oracle、雲達科技、Supermicro 與 University of Florida 等合作夥伴,也提交了基於 Blackwell 與 Hopper 平台的優異表現。領先的推論效能已透過主要雲端服務供應商與伺服器製造商提供,讓企業在部署進階 AI 應用時能同時享有更低的 TCO 與更高的投資報酬。