4月2日、智譜は、視覚プログラミング専用のマルチモーダルCoding基盤モデルである——GLM-5V-Turboを正式に発表しました。このモデルはコードを書くだけでなく、「世界を理解する」能力も備えており、AIエージェントの認識プロセスを単なる文字列から豊かなデザイン図面やウェブインターフェースへと拡張することを目的としています。

核心的突破:画像が見える、コードが書ける

ネイティブなマルチモーダルCoding基盤として、GLM-5V-Turboは視覚とプログラミング能力の深く融合を実現しています:

ネイティブなマルチモーダル感知: 画像、動画、デザイン図面、複雑なドキュメントレイアウトを深く理解でき、フレームの選択、スクリーンショット、ウェブページの読み込みなどのさまざまな視覚ツールの呼び出しをサポートします。

広範な視野: 上下文ウィンドウが大幅に拡張され、200kまで拡大し、エージェントが膨大なプロジェクトや長編技術ドキュメントを簡単に処理できるようになります。

パフォーマンスの飛躍: マルチモーダルCoding、GUIエージェント(グラフィカルユーザーインターフェースのインテリジェントエージェント)などの主要ベンチマークテストにおいて、このモデルはより小さなサイズで優れた性能を発揮し、純テキスト環境での論理的推論能力の低下を防いでいます。

典型的なシナリオ:「スケッチ」から「製品」への秒単位の飛躍

GLM-5V-Turboの導入により、開発者はこれまでにないワークフローを体験できます:

フロントエンドの再現: スケッチ、デザイン図面のスクリーンショット、または操作録画を送るだけで、モデルはレイアウト、カラーコード、インタラクションロジックを理解し、完全に動作可能なフロントエンドプロジェクトを生成し、視覚的な詳細を正確に再現します。

GUIの自主的探索: Claude Codeなどのフレームワークと組み合わせて、モデルは人間のようにウェブサイトを自主的に閲覧し、ジャンプ関係を整理し、素材を収集することで、「画像の再現」から「主動的な探索による再現」への能力の飛躍を実現します。

対話型エディット: ディスカッションを通じてモジュールの追加・削除、テキストの変更、レイアウトの調整が可能で、視覚的なコードの反復作業を実現します。

「エビ」の支援:AutoClawの視覚的進化

AutoClaw(エビ)という自社開発のエージェントにこのモデルを統合したことで、もともとはテキストタスクしか処理できなかった「エビ」は、本格的な視覚能力を獲得しました。

図表の深い解釈: エビは現在、K線チャート、評価範囲図、証券会社の分析レポートの図表を直接理解できるようになりました。

効率的な出力: 4つのデータソースを60秒以内に並列して取得し、図表を含む専門的な分析レポートやPPTを自動生成できます。

業界観察:プログラミングはもう「盲人摸象」ではない

GLM-5V-Turboの発表により、智譜はAIの理解力が単なる文法論理から知覚論理へと広がりました。AIが画面を見ることと人間の操作環境を理解することができれば、真の自動プログラミング補助(Agentic Coding)が始まったことになります。