在過去的幾年中,人工智能領域的開發者們通常依賴於大型雲計算集羣來推動技術進步。然而,隨着小型和中型語言模型變得越來越強大,開發者們開始質疑:如果小模型能做得更多,爲什麼 AI 開發仍然依賴於遠程且昂貴的基礎設施呢?

本地計算的進展一直滯後,即使是高端工作站也在加載這些先進模型時遇到內存瓶頸。面對 30 億或 70 億參數模型的團隊,常常不得不使用模型壓縮、分片或外部 GPU 服務器等解決方案。而對於一些受監管行業,這些工作繞不開的數據處理方案並不簡單。此外,初創企業和研究人員在訪問雲計算實例時,常常面臨高昂的費用和迭代速度的影響。

爲了解決這些問題,硬件製造商如戴爾開始加大投資。戴爾最新推出的 Pro Max 與 GB10 組合旨在爲開發者提供更強大的本地 AI 計算能力,幫助他們突破硬件限制。戴爾表示,訓練超過 70 億參數的模型需要超出大多數高端工作站的計算資源。

通過將 NVIDIA 的 Grace Blackwell 架構引入桌面形式,戴爾希望將硬件與這一新一代小型但計算密集的 AI 工作負載相結合。戴爾 Pro Max 與 GB10 的配置包括 128GB 的統一 LPDDR5X 內存,運行 Ubuntu Linux 及 NVIDIA DGX OS,預配置了 CUDA、Docker、JupyterLab 和 NVIDIA AI 企業堆棧。

戴爾稱該系統能提供每秒高達 1000 萬億次的 FP4 AI 性能,讓開發者可以在本地微調和原型設計高達 200 億參數的模型。將如此強大的計算能力壓縮到僅 1.2 千克、尺寸爲 150mm x 150mm x 50.5mm 的設備中,充分展示了工程上的成就。

通過統一內存,開發者可以在單一地址空間內處理大型模型,避免了 CPU/GPU 內存池之間的瓶頸。學術實驗室可以在不依賴共享集羣的情況下運行 Meta 的開源 Llama 模型,初創企業則可以在早期研發階段進行本地實驗,而無需一開始就投入雲計算費用。

戴爾還提到,對於需要更大計算能力的團隊,可以將兩個 GB10 系統組合使用,形成一個單一節點,支持高達 400 億參數的模型。隨着 DGX OS 的預配置,團隊可以迅速啓動訓練任務,並使用額外的 SDK 和編排工具進行操作。

劃重點:  

🌟 通過推出 Pro Max 與 GB10,戴爾爲本地 AI 開發者提供了強大的計算能力,突破了硬件限制。  

💻 新設備配置 128GB 統一內存,支持高達 200 億參數的模型微調,滿足現代 AI 需求。  

🚀 組合使用兩個 GB10 系統可處理高達 400 億參數,爲團隊提供更大的計算能力選擇。