谷歌發佈了一款名爲Whisk的新AI工具,它顛覆了傳統的圖像生成模式,允許用戶使用圖片作爲提示詞,而非冗長的文字描述。
通過Whisk,你可以上傳圖片來指定AI生成圖像的主題、場景和風格,並且可以爲這三者分別使用多張圖片。

比如,我輸入了一張小豬的圖片和貓咪的圖片,樣式選擇了一張插畫的風格,然後什麼提示詞都沒輸入(當然,你也可以選擇同時使用文字提示。),它自動給我生成了這樣一張效果圖。注意,SCENE這裏一般都是輸入場景圖,當然非要和我一樣輸入角色圖片也沒問題,它會自動融合生成,有時候可能相關性不大,但會有意外的驚喜。
如果你手頭沒有合適的圖片,可以點擊骰子圖標,讓谷歌自動填充一些圖片作爲提示(這些圖片似乎也是AI生成的)。

我隨手點了一下,谷歌隨機給了一隻狗和一隻小船,還有刺繡的圖片,看看會混合出什麼樣的效果:

效果還不錯,三張圖片的元素完美融合在了一起,成了一幅有趣的刺繡圖~

點擊圖像,我發現Whisk還爲每張生成的圖片提供了文字提示。如果對結果滿意,你可以收藏或下載圖像;如果想要進一步優化,可以在文本框中添加更多文字,或直接點擊圖像編輯文字提示。
谷歌在博客文章中強調,Whisk旨在進行“快速的視覺探索,而非像素級的精確編輯”。該公司還表示,Whisk可能會“跑偏”,因此允許用戶編輯底層的提示詞。
我體驗了Whisk工具幾分鐘,發現它非常有趣。雖然圖像生成需要幾秒鐘的時間,略顯煩人,而且生成的圖像有時會有些奇怪,但迭代過程很有意思。
谷歌表示,Whisk使用了最新版本的Imagen3圖像生成模型,該模型也在今天正式發佈。谷歌還同時發佈了新一代視頻生成模型Veo2,據說它能夠理解“電影的獨特語言”,並且“更少”出現諸如多餘手指之類的幻覺。Veo2將首先在谷歌的VideoFX中推出,用戶可以通過谷歌實驗室的候補名單申請體驗,並計劃在明年擴展到YouTube Shorts和其他產品。
總而言之,Whisk的出現爲圖像生成帶來了全新的可能性,讓用戶可以通過視覺方式表達創意,更加便捷地實現圖像的個性化定製。
產品體驗地址:https://top.aibase.com/tool/whisk
