騰訊混元正式發佈混元圖像3.0圖生圖(HunyuanImage3.0-Instruct)模型。該模型目前已在騰訊旗下的 AI 助手“元寶”全端及騰訊混元官網同步上線,標誌着騰訊在原生多模態圖像處理領域取得新突破。

混元圖像3.0圖生圖採用主流的混合專家(MoE)架構,總參數量達80B(激活參數約13B)。不同於傳統的濾鏡式修圖,它被定義爲一款“會思考”的圖像編輯模型。在接收到用戶的提示詞和圖片後,模型會先深度理解圖像內容,隨後自主推理出需要修改的區域和步驟,並精準保留無需變動的圖像細節,從而實現更具邏輯感的輸出效果。

image.png

在功能層面,該模型展現了極高的靈活性。它不僅支持基礎的元素增刪、風格變換及老照片修復,還具備強大的多圖融合能力,能將多張照片中的人物或元素提取併合成。對於普通用戶而言,這意味着可以直接在元寶上快速製作個性化表情包、虛擬合拍,甚至完成專業的電商海報設計和遊戲角色定製。

爲了打磨這一模型,混元團隊構建了千萬量級的圖生圖數據集,覆蓋超過80個細分任務。通過引入思維鏈訓練和自研的 MixGRPO 算法,模型在指令響應速度和圖像一致性上均有顯著提升。無論是在情緒表現力還是生成真實感上,混元圖像3.0圖生圖都爲 AI 圖像創作提供了更專業、更易用的工具選擇。

劃重點:

  • 🧠 自主推理編輯:混元圖像3.0圖生圖能夠先理解原圖再執行指令,自動分析修改區域並保持非編輯區的一致性。

  • 🎨 多場景功能覆蓋:支持老照片修復、人物合影合成及複雜的文字修改,可廣泛應用於電商海報、遊戲定製等創意領域。

  • 性能與效率雙增:基於80B MoE 架構及千萬級數據集訓練,模型生成的圖像情緒張力更強,且生成速度較前代有明顯提升。