格靈深瞳開源了RWKV-CLIP模型,這是一個結合了Transformer和RNN優點的視覺語言表徵學習器。該模型通過圖文預訓練任務,使用從網站獲取的圖像-文本對擴展數據集,顯著提高了視覺和語言任務的性能。
爲了解決噪聲數據問題並提高數據質量,研究團隊引入了一個多樣化的描述生成框架,利用大型語言模型(LLM)從基於網絡的文本、合成字幕和檢測標籤中合成和細化內容。
RWKV-CLIP模型採用雙塔架構,融合了Transformer的有效並行訓練和RNN的高效推理。模型由多個空間混合和通道混合模塊堆疊而成,通過這些模塊實現對輸入圖像和文本的深入處理。在空間混合階段,模型利用注意力機制進行全局的線性複雜度計算,強化特徵在通道層級的交互。通道混合階段進一步細化特徵表示。RWKV-CLIP模型在輸入增強方面,通過隨機選擇原始文本、合成字幕或生成描述作爲文本輸入,增強了模型的魯棒性。

實驗結果表明,RWKV-CLIP在多個下游任務中取得了最先進的性能,包括線性探測、零樣本分類和零樣本圖像文本檢索。與基線模型相比,RWKV-CLIP實現了顯著的性能提升。
RWKV-CLIP模型的跨模態分析顯示,其學習到的表示在同一模態中表現出更清晰的可辨別性,並且在圖像-文本模態空間中表現出更近的距離,表明跨模態對齊性能更出色。
模型地址:https://wisemodel.cn/models/deepglint/RWKV-CLIP
