AMD近日正式發佈了專爲大語言模型部署設計的vLLM-ATOM插件。該插件旨在不改變現有工作流的前提下,顯著優化DeepSeek-R1、Kimi-K2 等主流國產大模型在AMD硬件上的推理性能。
作爲面向高併發場景的開源推理框架,vLLM一直以顯存利用率高而著稱。此次AMD推出的插件提供了更貼合其Instinct系列GPU的優化方案,確保開發者能以極低的學習成本實現技術遷移。

實現性能平滑升級
vLLM-ATOM插件的核心優勢在於“零成本”部署,用戶無需改動原有的API或端到端工作流。插件會在後臺自動接管並優化請求調度與內核調優,使得現有服務能平滑遷移至AMD硬件後端。
從架構設計上看,該插件分爲三層:頂層負責兼容OpenAI接口,中間層負責模型實現與路由,底層則提供核心GPU內核。這種結構有效集成了混合專家模型(MoE)及量化技術,爲大規模部署提供了保障。
廣泛適配算力生態
該插件重點面向AMD旗下的Instinct MI350 及MI400 系列高性能GPU。它不僅支持Qwen3、GLM等主流中文大語言模型,還全面覆蓋了稠密模型、混合專家模型以及視覺語言模型(VLM)等多種應用場景。
隨着vLLM-ATOM的推出,AMD進一步降低了企業級AI部署的門檻。通過對DeepSeek-R1 等頂尖模型的深度優化,這一工具將幫助更多開發者利用AMD算力資源,實現更高效、更穩定的在線AI服務轉化。
