アリババは最近、QVQ-72Bという新しいマルチモーダル推論モデルを発表しました。このモデルはQwen2-VL-72Bをベースに構築されており、強力な言語能力と視覚能力を融合することで、より複雑な推論と分析タスクを処理できます。これは、アリババが多モーダルAI分野で新たなブレークスルーを達成したことを示しています。



アリババは最近、QVQ-72Bという新しいマルチモーダル推論モデルを発表しました。このモデルはQwen2-VL-72Bをベースに構築されており、強力な言語能力と視覚能力を融合することで、より複雑な推論と分析タスクを処理できます。これは、アリババが多モーダルAI分野で新たなブレークスルーを達成したことを示しています。


グーグルがStreetReaderAIの原型システムをリリースし、視覚障害者や視力が弱いユーザーが自然言語によるインタラクションを通じてグーグルストリートビューを自主的に探索するのを補助しています。このシステムはコンピュータビジョン、地理情報システム、大規模言語モデルを統合し、マルチモーダルAIを駆動するリアルタイムの対話型ストリートビュー体験を実現し、従来の音声読み上げの限界を打ち破り、バリアフリーな都市探検の自由度を向上させます。
Qwenチームは先日、最新開発のマルチモーダル推論モデルQVQのオープンソース化を発表しました。これは、人工知能における画像理解と複雑な問題解決能力において重要な一歩を踏み出したことを意味します。このモデルはQwen2-VL-72Bをベースに構築されており、言語と視覚情報を組み合わせることでAIの推論能力を向上させることを目指しています。MMMU評価において、QVQは70.3の高得点を獲得し、また複数の数学関連ベンチマークテストにおいて、Qwen2-VL-72B-Instructと比較して顕著な性能向上を示しました。
最近、Molmoというオープンソースの多モーダルAIモデルが業界で大きな注目を集めています。OpenAIのCLIPをビジョン処理エンジンとして使用し、Qwen2-72BをベースとしたこのAIシステムは、その優れた性能と革新的な機能で、従来の商用モデルの覇権に挑戦しています。Molmoの顕著な特徴はその高い性能です。比較的サイズが小さいにもかかわらず、処理能力は10倍規模の競合他社に匹敵します。この小さくても強力な設計思想は、モデルの効率性を高めることに貢献しています。
この度、Sakana AIの科学者らが人工知能分野で画期的な進歩を遂げました。彼らは、ビジョン言語基盤モデル(vision-language foundation models、FMs)を用いて、人工生命(Artificial Life、ALife)シミュレーションの自動探索を世界で初めて実現しました。ASAL(Automated Search for Artificial Life、人工生命自動探索)と名付けられたこの研究は…
12月24日、上海市人民政府弁公室は『上海市医療人工知能発展工作方案(2025—2027年)』を発表しました。この方案は今後3年間の主要任務と目標を明確化し、国家の「人工知能+」イニシアチブへの戦略的取り組みへの対応を目指しています。医療イノベーションと人工知能の深層融合を推進し、人工知能と医療イノベーションの深層融合を促進することで、上海を世界に影響を与える医療人工知能技術革新、応用実証、産業発展拠点へと発展させることを目的としています。本工作方案の策定もその一環です。方案は、(中略)の向上を強調しています。