京東最近宣佈了一項令人振奮的技術進展 —— 開源基於國產芯片自主研發的大模型推理引擎 xLLM。這一引擎的推出旨在幫助企業在部署人工智能(AI)應用時,能夠以更高的性能和更低的成本運作,進一步推動行業的智能化轉型。

xLLM 引擎的核心功能亮點衆多,首先是其基於請求優先級的動態調度器。這一功能能夠根據不同請求的重要性,智能分配計算資源,確保關鍵任務優先完成。此外,該引擎還具備動態自適應的 PD 分離架構,可以根據實時負載情況調整處理實例的比例,以實現資源的最佳利用。值得一提的是,xLLM 特別適配多模態場景,配備了 EPD 混合分離調度器,爲複雜的 AI 應用提供了更靈活的解決方案。

image.png

在技術架構方面,xLLM 擁有基於硬件特性的多級流水線執行引擎,確保高效處理不同類型的任務。同時,開發者們還設計了包含圖融合、投機推理和動態負載均衡的計算優化套件,這將大幅提升 AI 推理的效率。爲了進一步提升系統性能,xLLM 還利用 Mooncake 構建了多級 KV 緩存的全局管理系統,爲數據處理提供了更加順暢的體驗。

京東表示,這一技術源自其零售核心業務,並已成功應用於京東 AI 助手、智能客服、風控和供應鏈助手等多個場景。通過這一系統,效率提升超過5倍,而機器成本則降低了90%,這一切都表明了 xLLM 的強大潛力。

“我們堅信,AI 基礎設施的生態建設離不開每位開發者的貢獻。開源只是第一步,未來京東將繼續根據社區的需求,開放更多高級功能,並與清華、北大、中科大等產學研合作伙伴共同推動國產 AI 基礎設施技術的創新與發展。” 京東零售 AI 基礎設施團隊表示。

隨着 xLLM 的開源,開發者們將有機會體驗這一強大的推理引擎,併爲推動中國的 AI 技術生態做出貢獻。