最近、智譜AIは華為と共同で、新世代の画像生成大規模モデル「GLM-Image」をオープンソース化しました。このモデルは性能面で現在の国際的な最高水準(SOTA)に達し、また重要な記録を樹立しました。それは、世界で初めてデータ処理、トレーニング、推論の全プロセスが中国製AIチップで行われたマルチモーダル大規模モデルであることです。
このGLM-Imageは、華為の昇騰Atlas 800T A2サーバーおよび昇思MindSpore AIフレームワークを全面的に活用しており、海外のGPUやディープラーニングフレームワークに依存することなく、中国製のソフトウェア・ハードウェアスタックが最先端のAI開発を支える可能性と成熟度を証明しています。
技術面では、GLM-Imageは智譜が独自に開発した「自己回帰+拡散デコーダー」の混合アーキテクチャを使用しており、言語モデリングの論理的連続性と拡散モデルの高精度な生成能力を巧みに融合しています。この設計により、テキストに基づいて高品質な画像を正確に生成するだけでなく、画像とテキストの意味を深く一致させ、統合的な推論を行うことが可能になります。「認知型生成(Cognitive Generation)」という新たな枠組みに核心的なエンジンを提供します。この技術ルートは、Nano Banana Proなどの次世代AIクリエイションプラットフォームに応用されており、AIGCが「ピクセルの積み重ね」から「意味に基づいた」ものへと進化するのを促しています。
今回の協力は、中国製AIエコシステムが「使える」段階から「使いやすい」段階へと移行していることを示しています。過去には高性能なマルチモーダルモデルはほぼすべて英伟達のGPUとPyTorch/TensorFlowエコシステムに依存していましたが、今やGLM-Imageの成功トレーニングによって、昇騰+MindSporeの完全な国内対応ソリューションが先端研究および産業展開を支える能力を持つことが証明されています。
米中の科技競争が激化し、計算力の自主制御が国家戦略となる中、GLM-Imageのリリースは単なる技術成果の展示にとどまらず、中国AI産業チェーンの協調的なイノベーションの重要な一歩です。より多くの開発者がこのモデルを微調整し、アプリケーションを開発することで、真正な自主的で開放的で高性能な中国語マルチモーダルエコシステムが加速して形成される見込みです。
