微軟推出小型多模態 AI 模型 Phi-4：思考與感知的完美結合！

微軟近日在其開發者社區發佈了一款名爲 Phi-4-Reasoning-Vision-15B 的新型開源 AI 模型。這款模型不僅具備高分辨率的視覺感知能力，還能夠進行深度推理，標誌着 Phi-4 系列的一個重要突破。作爲首個同時具備 “看得清楚” 和 “想得深入” 特性的 “小語言模型”（SLM），Phi-4 的問世將爲開發者開闢新的智能應用場景。

與傳統的視覺模型不同，Phi-4 不僅僅是被動地識別圖像中的內容，而是能進行結構化和多步驟的推理。它能夠理解圖像中的視覺結構，並將其與文本上下文相結合，從而得出可操作的結論。這種能力使得開發者能夠創建從數據圖表分析到用戶界面自動化等多種智能應用。

Phi-4 的設計特色在於其靈活的推理模式。當面對需要深入分析的任務時，比如數學問題或邏輯推理時，模型會切換到 “推理模式”，啓用多步驟推理鏈。而在需要快速反應的場景中，比如 OCR（光學字符識別）或元素定位時，它則能快速輸出結果，以降低延遲。這種靈活性大大提升了模型的實用性和效率。

非推理模式

此外，Phi-4 的應用潛力巨大，尤其是在計算機智能體的使用場景中。用戶只需提供一個屏幕截圖和自然語言指令，模型便能輸出所需 UI 元素的標準化邊界框座標，其他智能體模型則可以在此基礎上執行點擊、滾動等交互操作。這樣，Phi-4 將爲用戶帶來更便捷的操作體驗。

推理模式

總體來看，Phi-4-Reasoning-Vision-15B 不僅在技術上有所突破，也爲智能應用的開發提供了強大的支持。隨着這一模型的開源，期待更多開發者能夠利用其先進功能，創造出更多令人驚歎的應用場景。

騰訊雲宣佈 Hy3 preview 與 DeepSeek-V4-Pro 模型免費公測將結束，轉爲商用

騰訊雲宣佈，其智能體開發平臺中的Hy3 preview和DeepSeek-V4-Pro模型將於2026年5月27日10:00結束限時免費公測。這兩個模型在公測期間廣受關注，提供強大智能化解決方案，助力開發者和企業提升效率與業務能力。騰訊雲表示，經過長時間調試測試，模型現已具備更高穩定性和智能水平。

阿里巴巴發佈2026財年Q4財報:AI收入激增，百鍊平臺ARR將破百億

阿里巴巴2026財年Q4財報顯示，AI驅動雲業務爆發增長，第四財季營收2433.8億元，同口徑增長11%。其中，阿里雲“百鍊”Maas平臺年化經常性收入突破80億元，預計本季度將超100億元，增長主要來自自研通義千問大模型API服務及AI原生應用。

微軟推出小型多模態 AI 模型 Phi-4：思考與感知的完美結合！

相關推薦

Kimi K2 系列模型 API 下線，用戶請轉向新版本

阿里雲推出全新 AI 產品官網 “千問雲”，讓 Agent 更高效便捷

騰訊雲宣佈 Hy3 preview 與 DeepSeek-V4-Pro 模型免費公測將結束，轉爲商用

阿里巴巴發佈2026財年Q4財報:AI收入激增，百鍊平臺ARR將破百億

騰訊雲：部分DeepSeek模型升級及切換安排公告

微軟推出小型多模態 AI 模型 Phi-4：思考與感知的完美結合！

相關推薦

​Kimi K2 系列模型 API 下線，用戶請轉向新版本

​阿里雲推出全新 AI 產品官網 “千問雲”，讓 Agent 更高效便捷

​騰訊雲宣佈 Hy3 preview 與 DeepSeek-V4-Pro 模型免費公測將結束，轉爲商用

阿里巴巴發佈2026財年Q4財報:AI收入激增，百鍊平臺ARR將破百億

騰訊雲：部分DeepSeek模型升級及切換安排公告

Kimi K2 系列模型 API 下線，用戶請轉向新版本

阿里雲推出全新 AI 產品官網 “千問雲”，讓 Agent 更高效便捷

騰訊雲宣佈 Hy3 preview 與 DeepSeek-V4-Pro 模型免費公測將結束，轉爲商用