硅基流動平臺上線阿里 Qwen3-VL 模型，全面提升視覺認知能力

近日，硅基流動平臺上線了阿里最新發佈的 Qwen3-VL 系列開源模型，這一系列模型在視覺理解、時序分析以及多模態推理方面取得了顯著進步。針對圖像模糊、視頻複雜、關鍵時刻瞬間即逝等難題，Qwen3-VL 能夠有效提升視覺認知的能力，讓用戶在處理複雜的視覺信息時更加輕鬆。

Qwen3-VL 系列模型的核心特點之一是其卓越的圖像識別能力，支持32種語言的 OCR 功能，能夠準確處理弱光、模糊、傾斜的文本。同時，這一模型也具有極強的圖文理解能力，與純語言模型相比，其在文本理解方面的表現不相上下，能夠實現深度圖文融合。

在視頻理解方面，Qwen3-VL 系列原生支持256K 的上下文處理，最高可擴展至1M，這意味着它可以處理長達數小時的視頻內容。通過逐秒索引和精準回溯，Qwen3-VL 能輕鬆定位視頻中的關鍵事件，並且具備時間戳對齊的能力，從而顯著提升了視頻內容的解析效率。

此外，Qwen3-VL 在智能行爲方面的表現同樣出色，能夠直接與 PC 或移動端的界面進行交互，識別界面元素、調用工具並完成各類任務。其視覺編程功能更是能基於圖像生成實用內容，如 Draw.io 圖表、HTML、CSS、JS 等，展示出在 STEM 和數學推理等硬核任務中的領先表現。

通過交錯式多維旋轉位置編碼和深度堆疊融合技術的創新，Qwen3-VL 模型在長視頻推理和圖像特徵捕捉方面表現卓越，極大提升了視覺任務的處理能力。在多項主流視覺感知評測中，Qwen3-VL 系列模型的表現遠超其他閉源模型，展現了其強大的泛化能力和綜合性能。

硅基流動平臺爲開發者提供了一站式大模型服務，包括多個頂尖模型，支持語言、圖像、音頻等多種任務場景。新用戶還可通過平臺獲取體驗贈金，輕鬆體驗模型的強大功能。

劃重點:
🌟 Qwen3-VL 系列模型支持32種語言的 OCR，具備卓越的圖像和視頻理解能力。
🎥 原生支持長達數小時的視頻內容處理，能逐秒索引和精準回溯關鍵事件。
🖥️ 智能行爲能力強，能夠與界面交互並完成各類任務，提升工作效率。

節省 40 億元還是觸發監管？微軟擬爲Copilot引入國產AI模型陷兩難

微軟正評估將月之暗面開發的Kimi K3開源模型引入Copilot服務，以大幅降低AI運營成本。作爲全球參數規模最大的開源模型，Kimi K3在編程等多項評測中性能媲美頂尖模型，有望替代此前主要依賴的OpenAI與Anthropic技術，重塑底層架構。微軟內部測算顯示，此舉每年最高可節省6億美元。

Hugging Face披露AI智能體攻擊事件，採用GLM5.2完成日誌取證分析

Hugging Face遭黑客AI攻擊後，先用美國商業大模型API分析1.7萬條日誌，卻因無法區分攻防人員遭安全機制誤判拒阻；隨後轉向自身基礎設施部署中國開源模型GLM5.2，成功完成海量日誌取證。事件突顯不同AI模型在安全場景下的表現差異。

前OpenAI CTO穆拉蒂打造多模態Inkling模型登場，號稱美國最強開源AI

前OpenAI CTO穆拉蒂創立的思維機器實驗室發佈首款從零訓練多模態模型Inkling，號稱美國最強開源。採用MoE（975B總參/41B激活），上下文100萬token，預訓練45萬億token覆蓋圖文音視頻，已開源權重。團隊豪華，但推理編程不及中國開源勁旅。

節省 40 億元還是觸發監管？微軟擬爲Copilot引入國產AI模型陷兩難