阿里巴巴、多モーダル推論モデルQVQ-72Bを発表！視覚・言語能力が向上し、複雑な問題も容易に解決

アリババは最近、QVQ-72Bという新しいマルチモーダル推論モデルを発表しました。このモデルはQwen2-VL-72Bをベースに構築されており、強力な言語能力と視覚能力を融合することで、より複雑な推論と分析タスクを処理できます。これは、アリババが多モーダルAI分野で新たなブレークスルーを達成したことを示しています。

QVQ-72Bは、視覚推論、数学、科学の問題において顕著な性能向上を示しており、特に複数ステップの推論タスクにおいてその能力が際立っています。これは、テキスト情報だけでなく画像情報も理解し、複数ステップの推論を通じて複雑な問題を解決できることを意味し、従来のAIモデルでは実現困難なことです。

このモデルの大きな特徴は、物理の問題においてテキストと視覚情報を組み合わせ、因果関係を推論できる点です。例えば、物理的な状況の画像と関連するテキストの説明から、事象発生の因果関係を推論し、より深いレベルの理解能力を示します。

数学的推論タスク（代数、微積分など）において、QVQ-72Bは段階的な推論によって誤り率を大幅に削減します。これは、このモデルが単純な計算だけでなく、複雑な数学的推論も実行でき、明確な解法手順を提供できることを示しており、複雑な数学問題解決のための新たなツールを提供します。

さらに、QVQ-72Bは技術レポートや複雑なグラフ分析における重要な情報の抽出において、高い精度と効率性を誇ります。複雑な文書やグラフから重要な情報を迅速かつ正確に抽出できるため、研究者やアナリストなどの専門家にとって強力な支援ツールとなります。

画像認識においては、QVQ-72Bは物体の位置、色、空間関係、複雑な状況など、画像内の詳細を正確に認識できます。これは、このモデルがスマート監視や自動運転など、より幅広い場面に適用できることを意味します。

総じて、アリババが発表したQVQ-72Bマルチモーダル推論モデルは、その強力な視覚、言語、推論能力により、複雑な問題解決のための新たな考え方とツールを提供します。その登場は、間違いなく人工知能の様々な分野への応用を促進し、各業界のインテリジェント化アップグレードに新たな原動力をもたらすでしょう。

オンライン試用:https://huggingface.co/spaces/Qwen/QVQ-72B-preview

詳細情報:https://qwenlm.github.io/blog/qvq-72b-preview/

視覚障害者も街並みを見ることができる？グーグルの新しいAIシステムがバリアフリーな仮想探索を可能に。技術で社会に貢献する新たな一歩

グーグルがStreetReaderAIの原型システムをリリースし、視覚障害者や視力が弱いユーザーが自然言語によるインタラクションを通じてグーグルストリートビューを自主的に探索するのを補助しています。このシステムはコンピュータビジョン、地理情報システム、大規模言語モデルを統合し、マルチモーダルAIを駆動するリアルタイムの対話型ストリートビュー体験を実現し、従来の音声読み上げの限界を打ち破り、バリアフリーな都市探検の自由度を向上させます。

阿里巴巴通義千問Qwenオープンソースビジュアル推論モデルQVQ-72B-Preview

Qwenチームは先日、最新開発のマルチモーダル推論モデルQVQのオープンソース化を発表しました。これは、人工知能における画像理解と複雑な問題解決能力において重要な一歩を踏み出したことを意味します。このモデルはQwen2-VL-72Bをベースに構築されており、言語と視覚情報を組み合わせることでAIの推論能力を向上させることを目指しています。MMMU評価において、QVQは70.3の高得点を獲得し、また複数の数学関連ベンチマークテストにおいて、Qwen2-VL-72B-Instructと比較して顕著な性能向上を示しました。

オープンソース多モーダルモデルMolmo、画像内の物体を認識し正確な説明を生成

最近、Molmoというオープンソースの多モーダルAIモデルが業界で大きな注目を集めています。OpenAIのCLIPをビジョン処理エンジンとして使用し、Qwen2-72BをベースとしたこのAIシステムは、その優れた性能と革新的な機能で、従来の商用モデルの覇権に挑戦しています。Molmoの顕著な特徴はその高い性能です。比較的サイズが小さいにもかかわらず、処理能力は10倍規模の競合他社に匹敵します。この小さくても強力な設計思想は、モデルの効率性を高めることに貢献しています。

三省庁：有力企業による高品質産業データコーパスの構築を奨励、産業AIの学習を支援

工業情報化部、国務院国有資産監督管理委員会、全国工商聯が『製造業企業のデジタルトランスフォーメーション実施ガイドライン』を発表。製造業企業のデジタルトランスフォーメーション推進は体系的な事業であり、企業の発展の実情を起点とし、企業の抱える問題解決を目標とし、全要素生産性向上を方向とし、シナリオのデジタル化を切入点として、技術の成熟度、経済的実現可能性、事業モデルの持続可能性を総合的に考慮し、デジタルトランスフォーメーションの優先分野と重点方向を的確に特定する必要があると規定。その中で、生産工程の推進について言及している。

バイトダンスがMidscene.jsをオープンソース化：AI駆動のE2Eテストフレームワークが飛躍