4月2日、
核心的突破:画像が見える、コードが書ける
ネイティブなマルチモーダルCoding基盤として、
ネイティブなマルチモーダル感知: 画像、動画、デザイン図面、複雑なドキュメントレイアウトを深く理解でき、フレームの選択、スクリーンショット、ウェブページの読み込みなどのさまざまな視覚ツールの呼び出しをサポートします。
広範な視野: 上下文ウィンドウが大幅に拡張され、200kまで拡大し、エージェントが膨大なプロジェクトや長編技術ドキュメントを簡単に処理できるようになります。
パフォーマンスの飛躍: マルチモーダルCoding、GUIエージェント(グラフィカルユーザーインターフェースのインテリジェントエージェント)などの主要ベンチマークテストにおいて、このモデルはより小さなサイズで優れた性能を発揮し、純テキスト環境での論理的推論能力の低下を防いでいます。
典型的なシナリオ:「スケッチ」から「製品」への秒単位の飛躍
フロントエンドの再現: スケッチ、デザイン図面のスクリーンショット、または操作録画を送るだけで、モデルはレイアウト、カラーコード、インタラクションロジックを理解し、完全に動作可能なフロントエンドプロジェクトを生成し、視覚的な詳細を正確に再現します。
GUIの自主的探索:
対話型エディット: ディスカッションを通じてモジュールの追加・削除、テキストの変更、レイアウトの調整が可能で、視覚的なコードの反復作業を実現します。
「エビ」の支援:AutoClawの視覚的進化
図表の深い解釈: エビは現在、K線チャート、評価範囲図、証券会社の分析レポートの図表を直接理解できるようになりました。
効率的な出力: 4つのデータソースを60秒以内に並列して取得し、図表を含む専門的な分析レポートやPPTを自動生成できます。
