百度はAIGC分野で新たな重要な進展を遂げ、最新の視覚理解モデルであるQianfan-VLを正式にオープンソース化しました。このシリーズモデルには3B、8B、70Bの3つのバージョンが登場し、パラメータ数が小さい順に並んでおり、さまざまなアプリケーションシナリオに対応しています。注目すべきは、Qianfan-VLシリーズのトレーニングが完全に百度独自開発のコンピューティングチップKunlun X P800に依存していることで、国内チップが人工知能分野において持つ強力な実力を十分に示しています。
Qianfan-VLはマルチモーダル大規模モデルと呼ばれ、画像とテキストを同時に理解できる能力を持っています。例えば、複雑なグラフ内のデータやトレンドを分析できます。そのコア能力において、Qianfan-VLはOCR(光学文字認識)および教育シーンの最適化において特に優れています。ユーザーが身分証明書を撮影するだけで、モデルは自動的に名前と番号を認識し、あらゆるシナリオでのテキスト認識を実現します。印刷体、手書き文字、あるいは複雑な数学式でも簡単に認識し、情報を抽出して構造化データに変換できます。

教育分野では、Qianfan-VLは「スーパー学習者」として位置づけられ、生徒が写真を撮って問題を解くこと、幾何学的推論や関数解析を行うことを支援します。テスト結果によると、70BバージョンのQianfan-VLはScienceQAという科学質問テストで98.76点を取得し、類似製品よりも大幅に優れています。また、中国語マルチモーダルベンチマークCCBenchにおいても80.98点を記録し、中国語文脈における強力な理解能力を示しています。
Qianfan-VLのトレーニングを支えるKunlun X P800チップは、非常に優れた電力消費制御を備えており、150W〜160Wの電力消費により、大規模クラスタにおいて明らかにエネルギー効率と放熱の利点があります。P800の独自アーキテクチャ設計では、計算ユニットと通信ユニットを分離し、チップの利用効率を最適化しています。「通算融合」技術を通じて、データ伝送と計算プロセスがスムーズに連携し、モデルトレーニング性能を大幅に向上させます。
Qianfan-VLの下層アーキテクチャは、業界の優れた成果を統合しており、「4段階トレーニングパイプライン」という革新的な方法を採用することで、トレーニング中に堅固な一般的知識と専門知識を持つことを確保しています。現在、Qianfan-VL全シリーズモデルはGitHubやHugging Faceなどのプラットフォームでオープンソース化されており、企業や開発者が自由に使用できます。また、百度スマートクラウドのQianfanプラットフォームでもオンライン体験とデプロイサービスが提供されています。
GitHub:
https://github.com/baidubce/Qianfan-VL
Hugging Face:
https://huggingface.co/baidu/Qianfan-VL-70B
ポイント:
🌟 百度のQianfan-VLシリーズモデルが正式にオープンソース化され、3B、8B、70Bの3つのバージョンがあり、さまざまなシナリオに適しています。
🧠 モデルは強力なマルチモーダル能力を持ち、テキストと画像を同時に認識でき、特にOCRや教育分野で突出しています。
💡 Kunlun X P800チップによってモデルトレーニングがサポートされており、低電力で高い利用効率を持ち、大規模計算性能を最適化しています。
