近日,亞馬遜 SageMaker AI 宣佈推出支持 OpenAI 兼容 API 的實時推理端點。用戶只需更改端點 URL,即可使用 OpenAI SDK、LangChain 或 Strands Agents 等工具調用 SageMaker AI 上的模型,無需進行額外的客戶端定製、SigV4 封裝或代碼重寫。
這一更新使 SageMaker AI 端點開放了一個 /openai/v1 路徑,能夠接受聊天補全請求並直接返回響應,包括流式輸出。所有使用標準 SageMaker AI API 和 SDK 的端點和推理組件均已啓用 OpenAI 端點。通過更改 URL,用戶的現有應用程序可以無縫接入。
SageMaker AI 的功能豐富,支持在自有基礎設施上構建多步驟 AI 代理的工作流,例如使用 Strands Agents 或 LangChain。用戶的代理可以使用與其原有框架相同的 OpenAI 接口調用模型,同時推理過程在自己的 GPU 實例上進行。此外,用戶還可以在同一個 SageMaker AI 端點上託管多個模型,比如用於通用任務的 Llama、針對特定領域的微調 Mistral 模型,以及用於分類的小型模型,所有模型都可通過相同的 OpenAI SDK 訪問。
爲了使用這些功能,用戶需要具備一定的前提條件,包括擁有 AWS 賬戶及相應的權限,安裝 SageMaker 和 OpenAI 的 Python SDK,並準備好存儲在 Amazon S3 中的模型。此外,使用 SageMaker AI OpenAI 兼容端點需要進行 Bearer Token 認證,SageMaker Python SDK 中包含了生成 Token 的工具,能夠簡化認證流程。
在實際操作中,用戶可以輕鬆部署單模型端點或推理組件端點,以便於在單個端點上託管多個模型。通過 OpenAI Python SDK,用戶可以簡單地調用這些模型,獲取需要的推理結果。這項新功能的推出,使得 SageMaker AI 與現有的 AI 應用無縫對接,爲用戶提供了更高效、更靈活的推理解決方案。
劃重點:
🌟 新增 OpenAI 兼容 API:SageMaker AI 實時推理端點現支持 OpenAI API,只需更改 URL 即可調用模型。
🛠️ 多模型託管:用戶可在同一端點上託管多個模型,使用相同的 OpenAI SDK 進行訪問。
🔑 簡化認證流程:支持 Bearer Token 認證,方便用戶安全地訪問 SageMaker AI 端點。
