記事本文

浙大卒業生とマイクロソフトが共同でマルチモーダルモデルLLaVAを発表、GPT-4Vに挑む

公開AI二ュ-ス

時間 :Oct 12, 2023

読む :1分

浙江大学竺院校友とマイクロソフト研究所がGPT-4Vに挑む多様なモデルLLaVAを発表

浙江大学紫金港学院の卒業生がマイクロソフト研究所と協力し、GPT-4Vに挑戦するマルチモーダルモデル「LLaVA」を発表しました。

LLaVAは11個のテストデータセットにおいて優れた性能を示し、6,000以上のスターを獲得しました。モデルの総合的な能力は高く、GPT-4Vを85％上回る結果となっています。

LLaVAのオープンソースコード、モデル、およびトレーニングデータは現在利用可能です。

AI創作の新高地：ビットテックがSeedream 5.0 Proを発表し、インタラクティブで正確な編集時代を開く

バイトダンスがマルチモーダルAI「Seedream5.0 Pro」を発表。画像生成からデザインへ進化し、テキスト整合性・構成・文字描画・画質が向上。複雑な情報の可視化を突破し、意図を正確に解析。データや概念、高密度テキストを専門的なビジュアルへ変換する。....

Jul 9, 2026

193.8k

OpenAIのまた一人の要となる人物：田永龍が Tencent Hunyuanに参加した可能性があり、マルチモーダル分野を担当することになる

元OpenAI研究員の田永龍氏が騰訊（テンセント）に加入、混元マルチモーダル・視覚言語モデル開発を担当。2025年9月には姚順雨氏も首席AI科学者として加わり、両氏は再び共闘する。....

Jul 8, 2026

169.5k

テンセント・フンユアンマルチモーダルチームに新たな強力なメンバーが加わる。OpenAI元研究者である田永龍が加入したと報じられる

OpenAIの元研究者・田永龍氏がテンセントに入社し、混元マルチモーダルモデルの責任者としてVLM開発を主導する見通し。発表はまだだが、姚順雨氏に続く中核人材の獲得で、テンセントのマルチモーダルAI強化が鮮明に。....

Jul 8, 2026

193.0k

中国のマルチモーダル大規模モデルが画期的な進展を遂げる MiniMax M3が正式にオープンソース化され、応答速度が倍増

稀宇科技が本日、ネイティブマルチモーダルフラッグシップモデル「MiniMax M3」をオープンソース化。総パラメータ428B、活性化パラメータ23Bで、業界初のモデル。既に重みを公開し、スパース注意機構の論文を発表、注目を集めている。オープンソースモデル総合性能で1位。....

Jun 16, 2026

4,068.8k

16GBメモリでローカルで即時応答！グーグルがGemma 4 12Bを発表し、非符号化器アーキテクチャで画期的な変化をもたらす

グーグルが新しいマルチモーダルモデルGemma 4 12Bを発表しました。従来のアーキテクチャを逆転させ、独立した符号化器部品を取り除き、コンシューマー機器で効率的なローカルへの展開と推論を実現しました。この画期的な革新は、マルチモーダルモデルの計算複雑性を大幅に軽減し、実行速度を向上させ、オープンソース大規模モデルエコシステムの新たな段階を示しています。

Jun 4, 2026

260.5k

インテリジェントな未来、あなたの人工知能ソリューションシンクタンク