浙江大学紫金港学院の卒業生がマイクロソフト研究所と協力し、GPT-4Vに挑戦するマルチモーダルモデル「LLaVA」を発表しました。
LLaVAは11個のテストデータセットにおいて優れた性能を示し、6,000以上のスターを獲得しました。モデルの総合的な能力は高く、GPT-4Vを85%上回る結果となっています。
LLaVAのオープンソースコード、モデル、およびトレーニングデータは現在利用可能です。

浙江大学紫金港学院の卒業生がマイクロソフト研究所と協力し、GPT-4Vに挑戦するマルチモーダルモデル「LLaVA」を発表しました。
LLaVAは11個のテストデータセットにおいて優れた性能を示し、6,000以上のスターを獲得しました。モデルの総合的な能力は高く、GPT-4Vを85%上回る結果となっています。
LLaVAのオープンソースコード、モデル、およびトレーニングデータは現在利用可能です。
NetEase Youdaoが「子曰」大モデル4.0を発表し、全モーダル時代にアップグレード。テキスト、画像、音声の融合インタラクションをサポート。マルチモーダルモデルとTTSモデルをオープンソース化。翻訳モデルを再構築し、品質と効率を向上。視覚と数理分野でSOTAを達成し、テキスト数理問題で業界をリード。....
MiniMax(シユテクノロジー)は「10x Team」グローバル人材協力計画を開始した。この計画は、各業界のトップエキスパートを集結し、業界の深い理解と最先端のAI技術を組み合わせ、大規模モデルを垂直分野に応用することを目的としている。これは一般的な生産性から専門的な場面へと拡張し、業界効率を10倍に高めるものである。また、業界における認知価値を検証するため、マルチモーダルのコアリソースを公開している。
MiniMax(稀宇科技)は「10x Team」協力計画を開始。業界トップ人材と協力し、大規模モデルをプログラミングやコンテンツ制作から産業ソフトウェア、ゲームエンジン、チップ設計、金融などの垂直分野に拡大し、効率の「10倍成長」を目指す。既に専門家と実質的な協力を進め、業界知識がモデル進化を促進することを検証している。....
TikTokは、動画の自動文字要約機能「AI概覧」のテストを中止。米国などで数ヶ月間小規模テストされ、動画背景情報や商品推薦を提供する目的だったが、人気クリエイターCharli D'Amelioの情報を誤るなど深刻な「幻覚」問題が発生。開発を特定分野に集中させる方針に転換した。....
コンピュータビジョンは「見る」から「理解・対話」へシフト。認識精度の追求は限界に達し、CVPR2026では視覚を推論・意思決定・対話の仲介役と位置付け、マルチモーダルモデルによる「思考連鎖」論理展開など、適応的・暗黙的アプローチが主流に。....