有名なAIプログラミング補助ツールCursorは最近、内部テストの結果を共有しました。長距離で自律的なプログラミングタスクを処理する際、OpenAIの最新バージョンGPT-5.2モデルが、AnthropicのClaude Opus4.5よりも高い信頼性を示したことがわかりました。モデルの能力を検証するために、CursorチームはHTML解析、CSSレイアウト、カスタムJavaScript仮想マシンなど複雑な下位構造を備えた機能的なWebブラウザをゼロから構築することを試みました。

実験結果によると、数百万行のコードを扱い、何週間もかかる「長距離型」のタスクにおいて、GPT-5.2は複雑な指示をより正確に従い、非常に高い集中力を維持でき、長距離タスクでよく起こる「目標の逸脱」問題を効果的に回避できることがわかりました。一方で、Claude Opus4.5は多くのシナリオで優れたパフォーマンスを発揮しますが、このような大規模なプロジェクトを処理する際には、途中で停止したり、簡単な方法を選び、制御権を早めに手放す傾向があります。
現在、Cursorはそのプラットフォーム上でGPT-5.2モデルを同期してリリースしており、AIエージェントが通常の人間チームが数か月かけて行う大規模なプロジェクトを独立して完了できるかどうかを探求しています。ブラウザ実験に加え、このモデルはWindows7エミュレーターや百万行以上のコードを持つ複雑な移行作業を成功裏に完了し、生成型AIが自律的なエンジニアリング分野において大きな潜在力を示しています。
ポイント:
🚀 長距離タスクの利点:CursorはGPT-5.2が長期間かつ大規模な自律的なプログラミングタスクにおいて、Claude Opus4.5よりも目標に集中し、怠けず、欠陥がないことを指摘しています。
🌐 実証された事例: チームはAIエージェントを使ってRust版のブラウザーコアをゼロから書くことで、モデルが数百万行のコードを扱う際の工学的実装能力を証明しました。
🛠️ 効率の向上: 特定のタスクにおいて、AIエージェントによって再構築されたレンダリングパイプラインの性能は25倍向上し、滑らかなズームや動的なぼかし効果などの複雑な視覚効果を自動で追加できました。