最近、アマゾン SageMaker AI は OpenAI 互換 API をサポートするリアルタイムの推論エンドポイントをリリースしました。ユーザーはエンドポイント URL を変更するだけで、OpenAI SDK や LangChain または Strands Agents などのツールを使用して SageMaker AI 上のモデルを呼び出すことができ、追加のクライアントカスタマイズや SigV4 ラッピング、コードの再実装を行う必要がありません。
このアップデートにより、SageMaker AI エンドポイントは /openai/v1 パスを開設し、チャット補完のリクエストを受け付け、ストリーミング出力を含む応答を直接返すことが可能です。標準的な SageMaker AI API と SDK を使用しているすべてのエンドポイントおよび推論コンポーネントは OpenAI エンドポイントが有効になっています。URL の変更により、既存のアプリケーションがスムーズに接続できます。
SageMaker AI は豊富な機能を持ち、自前のインフラストラクチャ上でマルチステップの AI エージェントワークフローを構築することができます。例えば、Strands Agents または LangChain を使用することが可能です。ユーザーのエージェントは、もともとのフレームワークと同じ OpenAI インターフェースを使用してモデルを呼び出すことができますが、推論処理は自身の GPU インスタンスで行われます。さらに、ユーザーは同じ SageMaker AI エンドポイント上に複数のモデルをホストすることもでき、たとえば汎用的な Llama、特定の分野に微調整された Mistral モデル、そして分類用の小さなモデルなど、すべてが同じ OpenAI SDK を通じてアクセス可能です。
これらの機能を使用するには、いくつかの前提条件が必要です。AWS アカウントとその権限を持っていること、SageMaker および OpenAI の Python SDK をインストールすること、そして Amazon S3 に保存されているモデルを準備しておく必要があります。また、SageMaker AI の OpenAI 互換エンドポイントを使用するには Bearer Token 認証が必要であり、SageMaker Python SDK にはトークンを生成するためのツールが含まれており、認証プロセスを簡略化します。
実際に操作する際には、単一モデルエンドポイントまたは推論コンポーネントエンドポイントを簡単にデプロイし、複数のモデルを1つのエンドポイントでホストすることが可能です。OpenAI Python SDK を使用することで、ユーザーはこれらのモデルを簡単に呼び出し、必要な推論結果を得ることができます。この新機能のリリースにより、SageMaker AI は既存の AI アプリケーションとシームレスに統合され、ユーザーにより効率的で柔軟な推論ソリューションを提供します。
ポイント:
🌟 新規 OpenAI 互換 API:SageMaker AI のリアルタイム推論エンドポイントは OpenAI API をサポートしており、URL を変更するだけでモデルを呼び出すことができます。
🛠️ 複数モデルのホスティング:ユーザーは同じエンドポイントに複数のモデルをホストでき、同じ OpenAI SDK を使ってアクセスできます。
🔑 認証プロセスの簡略化:Bearer Token 認証をサポートしており、ユーザーが安全に SageMaker AI エンドポイントにアクセスできるようにします。
