格靈深瞳開源視覺語言表示學習模型RWKV-CLIP

格靈深瞳開源了RWKV-CLIP模型，這是一個結合了Transformer和RNN優點的視覺語言表徵學習器。該模型通過圖文預訓練任務，使用從網站獲取的圖像-文本對擴展數據集，顯著提高了視覺和語言任務的性能。

爲了解決噪聲數據問題並提高數據質量，研究團隊引入了一個多樣化的描述生成框架，利用大型語言模型（LLM）從基於網絡的文本、合成字幕和檢測標籤中合成和細化內容。

RWKV-CLIP模型採用雙塔架構，融合了Transformer的有效並行訓練和RNN的高效推理。模型由多個空間混合和通道混合模塊堆疊而成，通過這些模塊實現對輸入圖像和文本的深入處理。在空間混合階段，模型利用注意力機制進行全局的線性複雜度計算，強化特徵在通道層級的交互。通道混合階段進一步細化特徵表示。RWKV-CLIP模型在輸入增強方面，通過隨機選擇原始文本、合成字幕或生成描述作爲文本輸入，增強了模型的魯棒性。

微信截圖_20240722083639.png

實驗結果表明，RWKV-CLIP在多個下游任務中取得了最先進的性能，包括線性探測、零樣本分類和零樣本圖像文本檢索。與基線模型相比，RWKV-CLIP實現了顯著的性能提升。

RWKV-CLIP模型的跨模態分析顯示，其學習到的表示在同一模態中表現出更清晰的可辨別性，並且在圖像-文本模態空間中表現出更近的距離，表明跨模態對齊性能更出色。

模型地址：https://wisemodel.cn/models/deepglint/RWKV-CLIP

OpenAI CEO承認“GPT-4O MINI”字母數字組合的命名方式存在問題

在OpenAI最新推出的GPT-4o Mini中，CEO山姆·奧特曼承認了命名上的挑戰，面對批評表示需要考慮重新命名。GPT-4o Mini因其成本效益和對聊天機器人開發的適配性受到關注，但複雜命名引發廣泛關注。近日，奧特曼在迴應批評時坦誠了本性組合命名方式的困惑，並表示未來會考慮改名。儘管在其他項目上，如Sora和DALL-E等命名展現出創新思路，但GPT系列的命名仍然保守。奧特曼澄清由於ChatGPT和其基礎LLM的巨大影響力，短期內OpenAI可能不會對命名進行大規模調整。對此，觀察者和業界對OpenAI的命名策略持續關注，期待未來可能的創新改進。

Neo4j LLM 知識圖譜AI生成器：將非結構化數據轉換爲知識圖譜

Neo4j LLM知識圖譜構建器的推出旨在解決複雜數據處理難題，通過利用強大機器學習模型如OpenAI、Gemini等，迅速將非結構化數據轉化爲結構化知識圖譜，實現高效數據分析。此工具具備靈活的數據提取功能，允許用戶根據需求自定模式，並提供數據清理選項保障數據質量。其通過多種檢索增強生成技術實現智能數據查詢，圖形化的知識圖譜與文本嵌入詞彙圖的結合更利於理解與應用。具備良好兼容性，能在Google Cloud Run上運行或本地Docker Compose部署，集成的llm-graph-transformer模塊以及與LangChain框架的融合增強了數據處理能力。爲數據科學領域提供了最爲智能化的數據管理解決方案，成爲高效數據處理的重要工具。

美圖AI視頻修復新技術，速度提升10倍，過曝也能搞定

BlazeBVD是一種新型去閃算法，通過自動化的方式在未知退化情況下快速消除視頻閃爍效果，同時保全視頻內容的完整性與色彩真實度，顯著提升視頻質量。關鍵通過尺度-時間均衡（STE）方法處理視頻幀直方圖，智能捕捉閃爍與局部曝光變化，實現了高效、快速的閃爍消除。其工作原理包括直方圖輔助、STE濾波、全局和局部去閃模塊，以及自適應時間一致性處理。BlazeBVD能夠有針對性地修復光照變化和局部曝光問題，並通過網絡優化保持視頻質量與連貫性。相比現有技術，BlazeBVD在推理速度上提升10倍，顯示出其卓越性能與廣泛應用潛力。這項技術對視頻後期製作領域具有革命性影響，適用於視頻編輯、電影后期製作和視頻內容生成等多個場景。

深度解析AlphaFold 3：斯坦福博士帶你從ML工程師視角看超詳細圖解！

AlphaFold3（AF3）是DeepMind團隊的最新增強工具，用於預測蛋白質、核酸和小分子的結構。憑藉能夠解析單個蛋白質序列及其複合結構的能力，AF3實現了"食譜到三維結構"的轉變。其架構由三項核心模塊組成：輸入準備梳理序列、檢索具備相似結構的分子；表示學習運用多層注意力機制更新表徵；結構預測通過條件擴散模型實現預測。AF3創造性地將各類分子轉化爲獨特數值張量，彷彿給每個分子一個獨一無二的"身份證"，並運用注意力機制捕捉分子間的互相關係。在預測層面，條件擴散模型從隨機噪聲開始，逐步構建結構預測。訓練中多種損失函數和信心評估共同作用，提高了AF3的預測準確性和可靠性，實現自我反省與提升。AF3的可視化指導和先進架構，展示了人工智能在生物學領域預測模型的革命性進步。

日本媒體警告：AI搜索引擎或將對文化造成不可逆轉的影響

近期，日本出版界對中國 AI 驅動的搜索引擎發起警告，稱這些技術侵蝕新聞產業基礎，利用未獲得公平補償的新聞內容，現象被稱爲“搭便車”。AI 系統獲利於內容，卻未支持新聞生態發展。谷歌 AI 返回地震死亡人數信息揭示信息跨系統組合與版權問題。專家預測未來可能出現新版權法解決侵權，但這一進程中生成式 AI 的不斷髮展預示法律挑戰。案例引發日本出版界的擔憂，認爲錯誤信息傳播將損害民主與文化，呼籲評估法律體系應對 AI 技術威脅。此擔憂在全球範圍內顯現，尤其是對利用 AI 引流的網站內容。面對 AI 快速發展，保護內容創作者權益成爲迫切問題。