グーグルは最近、Gemini Androidアプリの17.10.54.sa.arm64テスト版で、生成型画像編集機能に関する大きなアップデートを公開しました。このバージョンでは、ディープなマーカーインターフェースとリアルタイムのテキスト記述ボックスを導入し、現在のAI画像の二次創作における命令伝達の不正確さや操作フローの断絶といった課題を解決することを目的としています。これにより、Geminiが生成コンテンツ(例えばNano Bananaの画像)の局所的な調整能力をさらに強化しています。

今回の技術的進化の中心は、インタラクティブロジックの再構築です。以前のバージョンでは、基本的なタッチペンや、編集画面から退出してからロボットに指示を与える必要があった初期のアプローチでしたが、新しいインターフェースでは「鉛筆」アイコンをクリックした後、画像の特定の領域で高精度なマーカーを直接付けることができ、同時に下部に追加されたテキストボックスで変更意図を入力できます。
このような「視覚的定位+自然言語」の二モードのインタラクティブ方式により、モデルが特定の局所的な編集指示を理解する精度が著しく向上します。また、テスト版にはサイズ調整(Resizing)およびエフェクト(Effects)オプションのスペースも予約されており、Geminiが単なるテキストから画像生成ツールから、生成、トリミング、フィルター処理を統合した総合的な画像作業ステーションへと進化していることを示しています。
業界のトレンドを見ると、グーグルのこの動きは、生成型AIの競争の焦点が「ゼロから作る」単純な生成から、「完璧を目指す」制御された編集へと移行していることを反映しています。複雑なマーカーツールをモバイルネイティブアプリに組み込むことで、グーグルはモバイルAIカメラとデジタル創作分野においてより高いインタラクティブなハードルを設けようとしています。
上述の機能は現時点でコード分析段階であり、まだ一般公開されていませんが、その「マーク即修正」の論理は、マルチモーダルモデルがユーザーの細かい美学的意図を認識する上で重要な一歩を踏み出したことを示しており、AI絵画がエンタメ化から専門的な創作プロセスへの浸透をさらに加速させることになります。
