最近、GPT Image2は非常に驚くべき生成効果をもたらし、ソーシャルメディアで大きな話題となっています。プロジェクトが注目を集める中、この裏方のチームも徐々に顔を出すようになりました。このコアチームはわずか13人で構成されており、わずか4か月でベースとなる構造を完全に再構築しました。研究責任者である陳博遠氏は具体的な技術的詳細については明かしていませんが、この新モデルを「画像分野のGPT」と表現し、汎用性での大きな飛躍を示唆しています。

チームの中心人物である陳博遠氏の成長経歴はドラマチックです。博士号取得中に「Diffusion Forcing」などの革新的な枠組みを提唱し、Googleで後にGemini2.0に採用された指示微調整技術を開発したことがあります。面白いことに、彼は高校の研究キャンプに参加していた頃にはPythonをまだ理解していなかったそうです。OpenAIに加わった後、彼はGPT画像モデルのすべてのトレーニング作業を担当し、Sora動画生成チームのコアメンバーでもあります。デモでは、中国語、韓国語、バングラデシュ語など多言語のポスターを正確にレンダリングする能力を示しました。

image.png

文字のレンダリングだけでなく、GPT Image2は世界の知識の理解や命令の遵守においても新たな高みに達しています。中科大の博士であるJianfeng Wang氏が担当するこのモジュールは、生の画像AIが長年抱えてきた課題を解決しました。例えば、過去のモデルでは時計がほぼ常に10:10に固定されていたのですが、新しいモデルでは任意の時間と複雑な空間配置の命令を正確に理解できるようになっています。彼はこのモデルがユーザーの創作意図と最終的な出力との間のギャップを解消していると述べています。

生産性ツール化に関しては、浙江大学竺可楨学院のYuguang Yang氏が、長文の論文をワンクリックで高精度なPPTと情報グラフに変換する能力を紹介しました。これはチームがマルチモーダル理解、MoE(混合エキスパートモデル)アーキテクチャおよび長距離ガイド技術の深く融合した結果です。

DALL-Eから現在のGPT Image2まで、この平均年齢が若く、背景が多様なチーム(多くの2025年に卒業した博士を含む)は、「描ける」から「描き切る」への進化を遂げました。現在、チームメンバーはすべてのSNSプロフィール写真を極簡な日系ステッカー風に変えています。そのような少し皮肉な自嘲は、この「出現型研究」を信奉する天才たちが世界を変えようとする独自の方法かもしれません。