百度發佈ERNIE-4.5-VL-28B-A3B-Thinking:精確定位圖像細節解決複雜問題

百度近日推出了其最新的多模態人工智能模型——ERNIE-4.5-VL-28B-A3B-Thinking，這是一款能夠將圖像深度整合到推理過程中的新型AI模型。百度聲稱，這款模型在多項多模態基準測試中表現出色，偶爾超越了包括谷歌的Gemini2.5Pro和OpenAI的GPT-5High在內的頂尖商業模型。

百度，搜索 (3)

輕量級與高性能的結合

儘管該模型總參數量爲280億，但由於採用了路由架構，它僅使用了30億個活躍參數進行推理。憑藉這種高效的架構，ERNIE-4.5-VL-28B-A3B-Thinking 可以在單個配備80GB GPU（例如Nvidia A100）的設備上運行。百度已通過Apache2.0許可證發佈該模型，允許其免費用於商業項目。不過，百度所宣稱的性能尚未經過獨立驗證。

核心能力:“圖像思維”與精確定位

該模型的突出特性在於其**“圖像思維”（Image Thinking）**功能，使其能夠在推理過程中動態處理圖像，以突出關鍵細節。例如，該模型可以自動放大圖像中的藍色標誌並準確識別出上面的文字，相當於在內部使用了圖像編輯工具進行處理。

其他測試顯示了其強大的多模態能力:

能夠精確定位圖像中的人物並返回其座標。
通過分析電路圖解決複雜的數學問題。
根據圖表數據推薦最佳遊覽時間。
對於視頻輸入，能夠提取字幕並將場景與特定時間戳匹配。
可以訪問外部工具，例如基於網絡的圖像搜索，以識別陌生物體。

行業背景與功能對比

儘管百度強調了 ERNIE-4.5-VL-28B-A3B-Thinking 在推理過程中能夠裁剪和處理圖像，但這種方法並非全新。早在2025年4月，OpenAI就已在其o3和o4-mini模型中推出了類似功能，允許模型將圖像直接整合到內部思維流程中，並在處理視覺任務時使用縮放、裁剪和旋轉等原生工具，爲類智能體的推理和問題解決能力樹立了新的標杆。

百度發佈ERNIE-4.5-VL-28B-A3B-Thinking:精確定位圖像細節解決複雜問題

輕量級與高性能的結合

核心能力:“圖像思維”與精確定位

行業背景與功能對比

相關推薦

谷歌在德國投資 64 億美元建設新 AI 數據中心

谷歌推出“私有AI計算”雲端系統:在隔離環境中實現AI數據“零訪問”

百度重磅發佈新一代多模態AI模型ERNIE-4.5-VL

谷歌發佈Nested Learning新範式，解決AI“災難性遺忘”難題

谷歌發佈 AI 文件檢測工具 Magika 1.0，重磅升級全面採用 Rust 語言

百度發佈ERNIE-4.5-VL-28B-A3B-Thinking:精確定位圖像細節解決複雜問題

輕量級與高性能的結合

核心能力:“圖像思維”與精確定位

行業背景與功能對比

相關推薦

谷歌在德國投資 64 億美元 建設新 AI 數據中心

谷歌推出“私有AI計算”雲端系統:在隔離環境中實現AI數據“零訪問”

百度重磅發佈新一代多模態AI模型ERNIE-4.5-VL

谷歌發佈Nested Learning新範式，解決AI“災難性遺忘”難題

谷歌發佈 AI 文件檢測工具 Magika 1.0，重磅升級全面採用 Rust 語言

谷歌在德國投資 64 億美元建設新 AI 數據中心