海外メディアの報道によると、アップル研究チームは最近、SlowFast-LLaVAモデルの適合版を発表しました。このモデルは長動画分析理解タスクにおいて優れた性能を示し、パラメータ数がより多いモデルよりも性能が上回っています。この突破は、長動画コンテンツ分析に効率的な新しいソリューションを提供します。

このモデルの核心的な利点は、双流アーキテクチャです。この設計により、従来のフレームごとの処理モードにおける情報の冗長性や文脈ウィンドウのオーバーフローの問題が効果的に解決されています。スローアクセス(Slow)は低フレームレートでシーンの静的詳細と背景情報を捉え、ファストアクセス(Fast)は高フレームレートで動作の急速な変化を追跡します。この協働作業モードにより、動画処理効率が大幅に最適化されました。

QQ20250825-143446.png

長動画ベンチマークテストでは、SlowFast-LLaVAは優れた性能を示しました。10億、30億、70億パラメータバージョンすべてが優れた成績を収めました。例えば、パラメータ数が10億のモデルはLongVideoBenchのGeneral VideoQAタスクで56.6点を獲得し、70億パラメータバージョンはLong-Form Video Understandingタスクで71.5点という高い得点を記録しました。動画理解だけでなく、知識推論やOCRなどの画像理解タスクでも同様に優れた性能を発揮しています。

QQ20250825-143452.png

このモデルは優れた性能を発揮していますが、現在はいくつかの制限があります。たとえば、入力フレームの長さは128フレームまでに制限されており、重要な情報が見落とされる可能性があります。アップルチームは、今後メモリ最適化技術の探求を通じてモデルの性能向上を目指すと述べています。

SlowFast-LLaVAは公開データセットに基づいて訓練され、オープンソースとして公開されています。これにより、AIコミュニティ全体にとって長動画理解分野での新たな考えと効率的なツールを提供しています。