百度近日推出了其最新的多模態人工智能模型——ERNIE-4.5-VL-28B-A3B-Thinking,這是一款能夠將圖像深度整合到推理過程中的新型AI模型。百度聲稱,這款模型在多項多模態基準測試中表現出色,偶爾超越了包括谷歌的Gemini2.5Pro和OpenAI的GPT-5High在內的頂尖商業模型。

百度,搜索 (3)

輕量級與高性能的結合

儘管該模型總參數量爲280億,但由於採用了路由架構,它僅使用了30億個活躍參數進行推理。憑藉這種高效的架構,ERNIE-4.5-VL-28B-A3B-Thinking 可以在單個配備80GB GPU(例如Nvidia A100)的設備上運行。百度已通過Apache2.0許可證發佈該模型,允許其免費用於商業項目。不過,百度所宣稱的性能尚未經過獨立驗證。

QQ20251113-090823.png

核心能力:“圖像思維”與精確定位

該模型的突出特性在於其**“圖像思維”(Image Thinking)**功能,使其能夠在推理過程中動態處理圖像,以突出關鍵細節。例如,該模型可以自動放大圖像中的藍色標誌並準確識別出上面的文字,相當於在內部使用了圖像編輯工具進行處理。

其他測試顯示了其強大的多模態能力:

  • 能夠精確定位圖像中的人物並返回其座標

  • 通過分析電路圖解決複雜的數學問題

  • 根據圖表數據推薦最佳遊覽時間

  • 對於視頻輸入,能夠提取字幕並將場景與特定時間戳匹配。

  • 可以訪問外部工具,例如基於網絡的圖像搜索,以識別陌生物體

行業背景與功能對比

儘管百度強調了 ERNIE-4.5-VL-28B-A3B-Thinking 在推理過程中能夠裁剪和處理圖像,但這種方法並非全新。早在2025年4月,OpenAI就已在其o3和o4-mini模型中推出了類似功能,允許模型將圖像直接整合到內部思維流程中,並在處理視覺任務時使用縮放、裁剪和旋轉等原生工具,爲類智能體的推理和問題解決能力樹立了新的標杆。