谷歌文生图巅峰之作 Imagen 2 登场,实测暴打 DALL・E 3 和 Midjourney
新智元報(bào)道
編輯:編輯部
【新智元導(dǎo)讀】卷瘋了卷瘋了,谷歌剛剛放出了文生圖 AI 模型的巔峰之作 Imagen 2,實(shí)測效果逼真細(xì)膩,生成的美女圖仿佛真人照片,對(duì)于提示的還原程度已經(jīng)打敗了 DALL?E 3 和 Midjourney!最強(qiáng)文生圖大模型這是要易主了?
提問:下面這張圖,是 AI 生圖還是照片?
如果不是這么問,絕大多數(shù)人大概都不會(huì)想到,這居然不是一張照片。
是的,只要在谷歌最新 AI 生圖神器 Imagen 2 中輸入這樣的提示詞 ——
A shot of a 32-year-old female, up and coming conservationist in a jungle; athleticwith short, curly hair and a warm smile
一位 32 歲的年輕女性自然保護(hù)主義者,正在叢林中探險(xiǎn)。她體格健壯,一頭短卷發(fā),面帶親切的微笑
就能得到開頭那張無比逼真寫實(shí)、比照片還像照片的圖像了!
雖然圣誕節(jié)已經(jīng)臨近,但谷歌還在卷個(gè)不停 —— 號(hào)稱 DALL?E 3 最強(qiáng)競品的文生圖模型 Imagen 2,終于重磅上線了。
剛用 Gemini 和 OpenAI 卷完 GPT-4,立馬又放出 Imagen 2 來卷 DALL?E 3 了,2023 年底的「卷王」稱號(hào),谷歌是實(shí)至名歸。
可以說,Imagen 2 是目前文本轉(zhuǎn)圖像技術(shù)的巔峰之作,已經(jīng)突破了 AI 生圖的界限。
在機(jī)器學(xué)習(xí)算法強(qiáng)大功能的加持下,Imagen 2 可以將文本描述轉(zhuǎn)換為生動(dòng)清晰的高分辨率圖像。
Imagen 2 最與眾不同之處在于,它能夠以驚人的準(zhǔn)確性,理解復(fù)雜抽象的概念,然后把這個(gè)概念可視化,細(xì)膩之程度令人驚嘆!
Imagen 2 的核心,還是復(fù)雜的神經(jīng)網(wǎng)絡(luò)架構(gòu)。經(jīng)過微調(diào)的 Transformer 模型,在文本理解和圖像合成上,都表現(xiàn)出了無與倫比的性能。
現(xiàn)在,在文生圖領(lǐng)域,谷歌又樹立了新的標(biāo)桿。
用自然語言就能生圖的模型,又多了一個(gè)
現(xiàn)在,除了 DALL?E 3 之外,我們又有了一個(gè)僅憑自然語言就能生圖的模型!
相比之下,Midjourney 必須用復(fù)雜、專業(yè)的提示詞,在易使用性上已經(jīng)被兩位競爭者甩出了很遠(yuǎn)。
僅憑簡單文本,就能生存多樣化的復(fù)雜圖像,這類 AI 生圖模型對(duì)于內(nèi)容創(chuàng)作的影響是極其深遠(yuǎn)的。
對(duì)于依賴視覺內(nèi)容的行業(yè)來說,這徹底改變了游戲規(guī)則,大大減少了傳統(tǒng)內(nèi)容制作所需的時(shí)間,內(nèi)容創(chuàng)作者可以以前所未有的速度,制作高質(zhì)量的視覺效果。
同時(shí),Imagen 2 還具有無可比擬的圖像質(zhì)量和多功能性。
Imagen 2 用到了谷歌最先進(jìn)的文本到圖像擴(kuò)散技術(shù),生圖質(zhì)量極高、效果逼真,而且和用戶的提示具有高度的一致性。
原因在于,它是使用訓(xùn)練數(shù)據(jù)的自然分布來生成更逼真的圖像,而非采用預(yù)先編程的樣式。
水母在深藍(lán)色的背景下悠然漂浮
可以看到,Imagen 2 的圖像生成能力非常驚人。
無論是渲染錯(cuò)綜復(fù)雜的風(fēng)景、詳細(xì)的物體,還是奇幻的場景,生成的圖像都具有如此高的保真度,以至于它們可以與人類藝術(shù)家創(chuàng)作的圖像相媲美,甚至直接超越。
有網(wǎng)友表示,看到 Imagen 的這張橙子圖,真是讓我大吃一驚。燈光穿過橙子后的投影,和提示中描述的意境非常吻合!
有人用同樣的提示,讓 DALL?E 3 生成了同樣的橙子油畫圖,效果比起 Imagen 3 來說,的確弱了不少。
類似的,Midjourney 生成的橙子,在真實(shí)感和意境層面,也要差上一截。
詩中意境,一鍵逼真還原
以往的「文本到圖像」模型,通常是根據(jù)訓(xùn)練數(shù)據(jù)集的圖像和標(biāo)題中的詳細(xì)信息,來生成與用戶提示匹配的圖像的。
但是它們有一個(gè) bug:對(duì)于每張圖像和配對(duì)的標(biāo)題,在細(xì)節(jié)質(zhì)量和準(zhǔn)確性上可能會(huì)有很大差異。
為了幫助創(chuàng)建更高質(zhì)量和更準(zhǔn)確的圖像、更好地符合用戶的提示,Imagen 2 的訓(xùn)練數(shù)據(jù)集中添加了更多描述,幫助 Imagen 2 學(xué)習(xí)不同的標(biāo)題風(fēng)格,并更好地理解廣泛的用戶提示。
這種圖像標(biāo)題配對(duì),就有助于 Imagen 2 更好地理解圖像和文字之間的關(guān)系,大大提高了它對(duì)上下文和細(xì)微差別的理解。
就比如,美國作家 Phillis Wheatley《晚間贊美詩》中的一句話「溪流潺潺,鳥兒啁啾,空中飄蕩著它們混合的音樂」。
詩中絕美的意境,Imagen 2 把要點(diǎn)全抓住了。
相比之下,Midjourney 似乎對(duì)于文學(xué)描述的內(nèi)容把握還是欠缺一些,大概率會(huì)在圖中自動(dòng)添加一個(gè)人物。不過整體畫面效果還是不錯(cuò)的。
而到了 DALL?E 3 這里,它居然在圖像上加了幾行字,生成了一張「賀卡」?
在著名的小說《白鯨記》中,Herman Melville 曾寫下「想象一下大海的微妙之處,最可怕的地方在于生物如何在水下滑行,卻在大多數(shù)情況下不易察覺,并且詭譎地隱藏在最可愛的蔚藍(lán)色調(diào)下」。
Imagen 2 也是很懂「海洋文學(xué)」的特點(diǎn)。
相比之下,Midjourney 和 DALL?E 3 一到深海,就瞬間就克蘇魯了起來……
兒童文學(xué)大家 Frances Hodgson Burnett 所著的《秘密花園》中,對(duì)知更鳥有這樣一句描述:
知更鳥從纏繞的常春藤上飛到墻頭,張開嘴巴,唱出了一個(gè)響亮而甜美的顫音,只是為了炫耀自己。世界上就沒有什么東西能比它更惹人喜愛了 —— 它們幾乎總是這樣做。
快看,Imagen 2 生成的這幅畫,把常春藤、墻頭、唱歌等暗藏的細(xì)節(jié),悉數(shù)呈現(xiàn)了出來。
同樣的提示詞,Midjourney 在真實(shí)感上還要差上幾分。
而 DALL?E 3 相比上面兩家,就更遜色了,尤其在植物和羽毛的細(xì)節(jié)上。
風(fēng)格復(fù)刻,隨意變換,更懂人類美學(xué)
一直以來,圖像生成飽受詬病的問題之一,便是人物的手指生成。
這次,Imagen 2 的數(shù)據(jù)集和模型進(jìn)步,在許多領(lǐng)域取得了改進(jìn)。
其中就包括渲染逼真的手部和人臉,以及保持圖像不受干擾的視覺偽影。
同時(shí),谷歌 DeepMind 根據(jù)人類對(duì)光線、取景、曝光、清晰度等特質(zhì)的偏好,訓(xùn)練了一個(gè)專門的「圖像美學(xué)模型」。
每張圖像都被給予一個(gè)美學(xué)分?jǐn)?shù),這有助于調(diào)節(jié) Imagen 2 在其訓(xùn)練數(shù)據(jù)集中賦予人類偏好的圖像更多的權(quán)重。
這樣一來,就提高了 Imagen 2 生成更高質(zhì)量圖像的能力。
Imagen 2 的擴(kuò)散技術(shù)提供了高度的靈活性,使得更容易控制和調(diào)整圖像的風(fēng)格。
通過提供參考風(fēng)格圖像并結(jié)合文本提示,可以訓(xùn)練 Imagen 2 生成遵循相同風(fēng)格的新圖像。
更強(qiáng)的「修復(fù)」和「擴(kuò)圖」
此外,Imagen 2 還支持圖像編輯功能,如「修復(fù)」(inpainting)和「擴(kuò)圖」(outpainting)。
通過提供參考圖像和圖像掩碼,我們可以用 inpainting 技術(shù)直接在原始圖像中生成新內(nèi)容。
在下面這幅原始圖中,只要輸入「綠色墻上有一個(gè)架子,架子上放著幾本書和花瓶」,對(duì)應(yīng)內(nèi)容就在原圖中生成了!
新內(nèi)容毫不突兀,完美融入原圖,渾然天成。
另外,我們還可以使用 outpainting 功能,給原始圖像擴(kuò)圖。
夕陽下非洲大草原上長頸鹿和斑馬的雙人大頭貼,一下子就擴(kuò)成了全身照。
全面加持企業(yè)級(jí)場景,logo 文案一鍵生成,中文也支持
現(xiàn)在,谷歌已經(jīng) Imagen 2 下放到開發(fā)者平臺(tái) Vertex AI。
在 Vertex AI 平臺(tái)上,客戶可以使用直觀的工具來自定義和部署 Imagen 2,享受全面管理的基礎(chǔ)設(shè)施和內(nèi)置的隱私與安全保護(hù)。
在谷歌 DeepMind 的技術(shù)加持下,Imagen 2 在圖像質(zhì)量上實(shí)現(xiàn)了顯著提升,幫助開發(fā)者根據(jù)特定需求創(chuàng)造圖像,其中包括:
- 根據(jù)自然語言的提示生成高質(zhì)量、逼真、高分辨率且精美的圖像;
- 支持多語言文本渲染,能夠在圖像中準(zhǔn)確添加文本內(nèi)容;
- 可以設(shè)計(jì)公司或產(chǎn)品的 Logo,并將其嵌入到圖像中;
- 提供視覺問題解答功能,可以從圖像中生成標(biāo)注,或就圖像細(xì)節(jié)提出的問題給出具有信息性的文本回答。
高質(zhì)量圖像:借助于改進(jìn)的圖像和文本理解,以及多種創(chuàng)新的訓(xùn)練和建模技術(shù),Imagen 2 能夠生成精準(zhǔn)、高品質(zhì)且逼真的圖像。
文本渲染支持:可以根據(jù)提示內(nèi)容,精準(zhǔn)地渲染出正確的文本。
Imagen 2 可以在生成含有特定文字或短語的物體圖像時(shí),確保輸出圖像中包含正確短語。
Logo 設(shè)計(jì):Imagen 2 能為品牌、產(chǎn)品等生成多種創(chuàng)意和逼真的 Logo,比如徽章、字母甚至非常抽象的 Logo。
標(biāo)注和問答:利用增強(qiáng)的圖像理解能力,Imagen 2 能夠創(chuàng)建詳細(xì)的長文標(biāo)注,并對(duì)圖像內(nèi)元素提出的問題給出詳細(xì)答案。
多語言提示:除了英語,Imagen 2 還支持其他 6 種語言(中文、印地語、日語、韓語、葡萄牙語、西班牙語),并計(jì)劃在 2024 年初增加更多語言。這項(xiàng)功能還包括提示與輸出之間的翻譯能力,比如,可以用西班牙語提示,但指定輸出為葡萄牙語。
圖像加水印,生成更安全
為了幫助降低文本到圖像生成技術(shù)的潛在風(fēng)險(xiǎn)和挑戰(zhàn),谷歌從設(shè)計(jì)和開發(fā)到產(chǎn)品部署都設(shè)置了強(qiáng)大的護(hù)欄。
Imagen 2 集成了 SynthID—— 用于加水印和識(shí)別 AI 生成內(nèi)容的尖端工具包。
這樣,Google Cloud 平臺(tái)的客戶可以直接在圖像中添加數(shù)字水印,同時(shí)不會(huì)降低圖像質(zhì)量。
不過,即使在對(duì)圖像進(jìn)行過濾、裁剪或使用有損壓縮方案保存后,SynthID 仍然可以檢測出。
除此之外,在向所有用戶推出之前,谷歌會(huì)進(jìn)行強(qiáng)大的安全測試,以最大限度地降低傷害風(fēng)險(xiǎn)。
從一開始,谷歌團(tuán)隊(duì)就投入對(duì) Imagen 2 的數(shù)據(jù)安全訓(xùn)練,并添加了技術(shù)護(hù)欄來限制有問題的輸出,如暴力、冒犯或色情內(nèi)容。
同時(shí),谷歌還對(duì)訓(xùn)練數(shù)據(jù)、輸入提示和系統(tǒng)生成的輸出進(jìn)行安全檢查。比如正在應(yīng)用全面的安全過濾器,以避免生成名人圖像等有潛在問題的內(nèi)容。
網(wǎng)友驚呼:真?最強(qiáng)文生圖模型來了!
Google DeepMind 研究副總裁兼深度學(xué)習(xí)主管 Oriol Vinyals 嘗試用 Imagen 2 為 Gemini 生成徽標(biāo)。
另一位谷歌科學(xué)家用 Imagen 2 生成的圖像如下。
下面是一只網(wǎng)友實(shí)測生成的藍(lán)貓。
有網(wǎng)友認(rèn)為,Imagen 2 是同類產(chǎn)品中最好的。就像 Gemini Ultra 一樣,看手和文字就足夠了。
不過,他還吐槽了谷歌不向所有人開放產(chǎn)品的問題。
「像往常一樣,谷歌宣布了一款大多數(shù)人無法使用的產(chǎn)品,這有什么意義?!」
參考資料:
https://deepmind.google/technologies/imagen-2/
https://cloud.google.com/blog/products/ai-machine-learning/imagen-2-on-vertex-ai-is-now-generally-available
本文來自微信公眾號(hào):新智元 (ID:AI_era)
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,所有文章均包含本聲明。
總結(jié)
以上是生活随笔為你收集整理的谷歌文生图巅峰之作 Imagen 2 登场,实测暴打 DALL・E 3 和 Midjourney的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 中国工程院院士王子才教授逝世,曾研发空间
- 下一篇: 【技术贴】注册表修改Win7默认字体为X