カリフォルニア大学サンタクルーズ校が開発したMiniGPT-5モデルは、Generative Vokens技術を導入することで、テキスト特徴空間と画像特徴空間の整合を実現しました。複数のデータセットにおけるテストで、比較基準を上回る性能を示し、その高い適応能力を実証しています。MiniGPT-5は、マルチモーダル生成に対し、統一的で効率的なソリューションを提供し、技術的なボトルネックを突破しました。
関連推奨
中国オープンソース大モデルがグローバルでトップに!Qwenのダウンロード数は米国のOpenAIを上回る、閉鎖的でスローアクセスと指摘される。WIRED:AIの価値は知能ではなくエコシステムを見ること
中国のオープンソース大規模モデルの世界的影響力が顕著に向上。2025年7月、阿里の通義千問が世界ダウンロード数首位を獲得し、中国のオープンソースモデル総ダウンロード量が初めて米国を上回った。同時に、同モデルはサードパーティプラットフォームでの呼び出し量で世界第2位となり、AI競争において「エコシステムの広さ」が新基準として注目されている。....
メイドゥーがSOTAクラスの仮想人物動画生成モデル『LongCat-Video-Avatar』をリリース
美团LongCatチームが動画生成モデル「LongCat-Video-Avatar」をオープンソース化し、バーチャルヒューマン技術の発展を推進。長編動画生成に優れ、音声・テキストから動画生成、動画続き作成など多機能で開発者から注目を集めている。....
Mistralが大規模オープンソースモデルDevstral 2を発表:123Bパラメータのエリート版+SWE-benchで72.2点を記録する無料APIとローカルCLIが登場!
欧州のAI企業Mistral AIは、新世代のオープンソースコードモデルシリーズであるDevstral2を発表しました。これは123Bパラメータの高級版と24Bの軽量版から構成され、自動プログラミングをサポートするコマンドラインツール「Mistral Vibe CLI」をサポートしています。このモデルはSWE-benchベンチマークテストで72.2点を記録し、トップクラスの閉鎖型モデルに近い性能を達成しており、現在APIは無料で公開されており、開発者にとって強力な支援となっています。
美团が重要オープンソースを発表 6Bパラメータの画像生成モデル LongCat-Image 中文テキスト生成と画像編集がSOTA水準に達する
美团LongCatチームが6BパラメータのLongCat-Image画像生成モデルをオープンソース化。文生図と画像編集で優れた性能を発揮し、性能と利用ハードルのバランスを図り、オープンソースとクローズドソースモデルの技術ギャップを埋める。....
オープンソースのスマートエージェントMiroThinker v1.0リリース:256Kのコンテキストサポートで600回のツール呼び出しを可能にし、深く相互作用するScalingフレームワークを提案
MiroMindがオープンソースのbAgentモデル「MiroThinker v1.0」を公開。256Kのコンテキストウィンドウと600回のツール呼び出しを実現。従来のパラメータ増加ではなく、高頻度の環境インタラクションによる「深度インタラクションScaling」フレームワークを提案。検索、Linuxサンドボックス、コード実行などのツールを統合し、数時間で複雑なタスクを自律的に処理可能。....
