當(dāng)前位置：首頁 > 运维知识 > windows >内容正文

windows

谷歌文生图巅峰之作 Imagen 2 登场，实测暴打 DALL・E 3 和 Midjourney

發(fā)布時(shí)間：2023/12/15 windows 36 传统文化

生活随笔收集整理的這篇文章主要介紹了谷歌文生图巅峰之作 Imagen 2 登场，实测暴打 DALL・E 3 和 Midjourney 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

新智元報(bào)道

編輯：編輯部

【新智元導(dǎo)讀】卷瘋了卷瘋了，谷歌剛剛放出了文生圖 AI 模型的巔峰之作 Imagen 2，實(shí)測效果逼真細(xì)膩，生成的美女圖仿佛真人照片，對(duì)于提示的還原程度已經(jīng)打敗了 DALL?E 3 和 Midjourney！最強(qiáng)文生圖大模型這是要易主了？

提問：下面這張圖，是 AI 生圖還是照片？

如果不是這么問，絕大多數(shù)人大概都不會(huì)想到，這居然不是一張照片。

是的，只要在谷歌最新 AI 生圖神器 Imagen 2 中輸入這樣的提示詞 ——

A shot of a 32-year-old female, up and coming conservationist in a jungle; athleticwith short, curly hair and a warm smile
一位 32 歲的年輕女性自然保護(hù)主義者，正在叢林中探險(xiǎn)。她體格健壯，一頭短卷發(fā)，面帶親切的微笑

就能得到開頭那張無比逼真寫實(shí)、比照片還像照片的圖像了！

雖然圣誕節(jié)已經(jīng)臨近，但谷歌還在卷個(gè)不停 —— 號(hào)稱 DALL?E 3 最強(qiáng)競品的文生圖模型 Imagen 2，終于重磅上線了。

剛用 Gemini 和 OpenAI 卷完 GPT-4，立馬又放出 Imagen 2 來卷 DALL?E 3 了，2023 年底的「卷王」稱號(hào)，谷歌是實(shí)至名歸。

不僅手指逼真，而且拿筷子的姿勢(shì)也很標(biāo)準(zhǔn)

可以說，Imagen 2 是目前文本轉(zhuǎn)圖像技術(shù)的巔峰之作，已經(jīng)突破了 AI 生圖的界限。

在機(jī)器學(xué)習(xí)算法強(qiáng)大功能的加持下，Imagen 2 可以將文本描述轉(zhuǎn)換為生動(dòng)清晰的高分辨率圖像。

Imagen 2 最與眾不同之處在于，它能夠以驚人的準(zhǔn)確性，理解復(fù)雜抽象的概念，然后把這個(gè)概念可視化，細(xì)膩之程度令人驚嘆！

Imagen 2 的核心，還是復(fù)雜的神經(jīng)網(wǎng)絡(luò)架構(gòu)。經(jīng)過微調(diào)的 Transformer 模型，在文本理解和圖像合成上，都表現(xiàn)出了無與倫比的性能。

現(xiàn)在，在文生圖領(lǐng)域，谷歌又樹立了新的標(biāo)桿。

用自然語言就能生圖的模型，又多了一個(gè)

現(xiàn)在，除了 DALL?E 3 之外，我們又有了一個(gè)僅憑自然語言就能生圖的模型！

相比之下，Midjourney 必須用復(fù)雜、專業(yè)的提示詞，在易使用性上已經(jīng)被兩位競爭者甩出了很遠(yuǎn)。

僅憑簡單文本，就能生存多樣化的復(fù)雜圖像，這類 AI 生圖模型對(duì)于內(nèi)容創(chuàng)作的影響是極其深遠(yuǎn)的。

對(duì)于依賴視覺內(nèi)容的行業(yè)來說，這徹底改變了游戲規(guī)則，大大減少了傳統(tǒng)內(nèi)容制作所需的時(shí)間，內(nèi)容創(chuàng)作者可以以前所未有的速度，制作高質(zhì)量的視覺效果。

同時(shí)，Imagen 2 還具有無可比擬的圖像質(zhì)量和多功能性。

Imagen 2 用到了谷歌最先進(jìn)的文本到圖像擴(kuò)散技術(shù)，生圖質(zhì)量極高、效果逼真，而且和用戶的提示具有高度的一致性。

原因在于，它是使用訓(xùn)練數(shù)據(jù)的自然分布來生成更逼真的圖像，而非采用預(yù)先編程的樣式。

A jellyfish on a dark blue background

水母在深藍(lán)色的背景下悠然漂浮

可以看到，Imagen 2 的圖像生成能力非常驚人。

無論是渲染錯(cuò)綜復(fù)雜的風(fēng)景、詳細(xì)的物體，還是奇幻的場景，生成的圖像都具有如此高的保真度，以至于它們可以與人類藝術(shù)家創(chuàng)作的圖像相媲美，甚至直接超越。

Small canvas oil painting of an orange on a chopping board. Light is passing throughorange segments, casting an orange light across part of the chopping board. There is a blueand white cloth in the background. Caustics, bounce light, expressive brush strokes

一小幅油畫，描繪了擺放在砧板上的橙子。陽光穿過橙子的切片，柔和的橙色光線灑在砧板上。畫的背景是一塊藍(lán)白相間的布，畫面巧妙地捕捉了光的折射、反射效果，同時(shí)展示了畫家富有感情的筆觸

有網(wǎng)友表示，看到 Imagen 的這張橙子圖，真是讓我大吃一驚。燈光穿過橙子后的投影，和提示中描述的意境非常吻合！

有人用同樣的提示，讓 DALL?E 3 生成了同樣的橙子油畫圖，效果比起 Imagen 3 來說，的確弱了不少。

類似的，Midjourney 生成的橙子，在真實(shí)感和意境層面，也要差上一截。

詩中意境，一鍵逼真還原

以往的「文本到圖像」模型，通常是根據(jù)訓(xùn)練數(shù)據(jù)集的圖像和標(biāo)題中的詳細(xì)信息，來生成與用戶提示匹配的圖像的。

但是它們有一個(gè) bug：對(duì)于每張圖像和配對(duì)的標(biāo)題，在細(xì)節(jié)質(zhì)量和準(zhǔn)確性上可能會(huì)有很大差異。

為了幫助創(chuàng)建更高質(zhì)量和更準(zhǔn)確的圖像、更好地符合用戶的提示，Imagen 2 的訓(xùn)練數(shù)據(jù)集中添加了更多描述，幫助 Imagen 2 學(xué)習(xí)不同的標(biāo)題風(fēng)格，并更好地理解廣泛的用戶提示。

這種圖像標(biāo)題配對(duì)，就有助于 Imagen 2 更好地理解圖像和文字之間的關(guān)系，大大提高了它對(duì)上下文和細(xì)微差別的理解。

就比如，美國作家 Phillis Wheatley《晚間贊美詩》中的一句話「溪流潺潺，鳥兒啁啾，空中飄蕩著它們混合的音樂」。

詩中絕美的意境，Imagen 2 把要點(diǎn)全抓住了。

"Soft purl the streams, the birds renew their notes, And through the air their mingledmusic floats." (A Hymn to the Evening by Phillis Wheatley)

相比之下，Midjourney 似乎對(duì)于文學(xué)描述的內(nèi)容把握還是欠缺一些，大概率會(huì)在圖中自動(dòng)添加一個(gè)人物。不過整體畫面效果還是不錯(cuò)的。

而到了 DALL?E 3 這里，它居然在圖像上加了幾行字，生成了一張「賀卡」？

在著名的小說《白鯨記》中，Herman Melville 曾寫下「想象一下大海的微妙之處，最可怕的地方在于生物如何在水下滑行，卻在大多數(shù)情況下不易察覺，并且詭譎地隱藏在最可愛的蔚藍(lán)色調(diào)下」。

Imagen 2 也是很懂「海洋文學(xué)」的特點(diǎn)。

"Consider the subtleness of the sea, how its most dreaded creatures glide underwater, unapparent for the most part, and treacherously hidden beneath the loveliest tints ofazure." (Moby-Dick by Herman Melville)

相比之下，Midjourney 和 DALL?E 3 一到深海，就瞬間就克蘇魯了起來……

Midjourney

DALL·E 3

兒童文學(xué)大家 Frances Hodgson Burnett 所著的《秘密花園》中，對(duì)知更鳥有這樣一句描述：

知更鳥從纏繞的常春藤上飛到墻頭，張開嘴巴，唱出了一個(gè)響亮而甜美的顫音，只是為了炫耀自己。世界上就沒有什么東西能比它更惹人喜愛了 —— 它們幾乎總是這樣做。

快看，Imagen 2 生成的這幅畫，把常春藤、墻頭、唱歌等暗藏的細(xì)節(jié)，悉數(shù)呈現(xiàn)了出來。

"The robin flew from his swinging spray of ivy on to the top of the wall and he openedhis beak and sang a loud, lovely trill, merely to show off. Nothing in the world is quite asadorably lovely as a robin when he shows off - and they are nearly always doing it." (TheSecret Garden by Frances Hodgson Burnett)

同樣的提示詞，Midjourney 在真實(shí)感上還要差上幾分。

而 DALL?E 3 相比上面兩家，就更遜色了，尤其在植物和羽毛的細(xì)節(jié)上。

風(fēng)格復(fù)刻，隨意變換，更懂人類美學(xué)

一直以來，圖像生成飽受詬病的問題之一，便是人物的手指生成。

這次，Imagen 2 的數(shù)據(jù)集和模型進(jìn)步，在許多領(lǐng)域取得了改進(jìn)。

其中就包括渲染逼真的手部和人臉，以及保持圖像不受干擾的視覺偽影。

同時(shí)，谷歌 DeepMind 根據(jù)人類對(duì)光線、取景、曝光、清晰度等特質(zhì)的偏好，訓(xùn)練了一個(gè)專門的「圖像美學(xué)模型」。

每張圖像都被給予一個(gè)美學(xué)分?jǐn)?shù)，這有助于調(diào)節(jié) Imagen 2 在其訓(xùn)練數(shù)據(jù)集中賦予人類偏好的圖像更多的權(quán)重。

這樣一來，就提高了 Imagen 2 生成更高質(zhì)量圖像的能力。

使用提示「花」的 AI 生成的圖像，美學(xué)分?jǐn)?shù)從低（左）到高（右）

Imagen 2 的擴(kuò)散技術(shù)提供了高度的靈活性，使得更容易控制和調(diào)整圖像的風(fēng)格。

通過提供參考風(fēng)格圖像并結(jié)合文本提示，可以訓(xùn)練 Imagen 2 生成遵循相同風(fēng)格的新圖像。

通過使用參考圖像和文本提示，Imagen 2 可以更輕松地控制輸出樣式

更強(qiáng)的「修復(fù)」和「擴(kuò)圖」

此外，Imagen 2 還支持圖像編輯功能，如「修復(fù)」（inpainting）和「擴(kuò)圖」（outpainting）。

通過提供參考圖像和圖像掩碼，我們可以用 inpainting 技術(shù)直接在原始圖像中生成新內(nèi)容。

在下面這幅原始圖中，只要輸入「綠色墻上有一個(gè)架子，架子上放著幾本書和花瓶」，對(duì)應(yīng)內(nèi)容就在原圖中生成了！

新內(nèi)容毫不突兀，完美融入原圖，渾然天成。

另外，我們還可以使用 outpainting 功能，給原始圖像擴(kuò)圖。

夕陽下非洲大草原上長頸鹿和斑馬的雙人大頭貼，一下子就擴(kuò)成了全身照。

全面加持企業(yè)級(jí)場景，logo 文案一鍵生成，中文也支持

現(xiàn)在，谷歌已經(jīng) Imagen 2 下放到開發(fā)者平臺(tái) Vertex AI。

在 Vertex AI 平臺(tái)上，客戶可以使用直觀的工具來自定義和部署 Imagen 2，享受全面管理的基礎(chǔ)設(shè)施和內(nèi)置的隱私與安全保護(hù)。

在谷歌 DeepMind 的技術(shù)加持下，Imagen 2 在圖像質(zhì)量上實(shí)現(xiàn)了顯著提升，幫助開發(fā)者根據(jù)特定需求創(chuàng)造圖像，其中包括：

- 根據(jù)自然語言的提示生成高質(zhì)量、逼真、高分辨率且精美的圖像；

- 支持多語言文本渲染，能夠在圖像中準(zhǔn)確添加文本內(nèi)容；

- 可以設(shè)計(jì)公司或產(chǎn)品的 Logo，并將其嵌入到圖像中；

- 提供視覺問題解答功能，可以從圖像中生成標(biāo)注，或就圖像細(xì)節(jié)提出的問題給出具有信息性的文本回答。

高質(zhì)量圖像：借助于改進(jìn)的圖像和文本理解，以及多種創(chuàng)新的訓(xùn)練和建模技術(shù)，Imagen 2 能夠生成精準(zhǔn)、高品質(zhì)且逼真的圖像。

文本渲染支持：可以根據(jù)提示內(nèi)容，精準(zhǔn)地渲染出正確的文本。

Imagen 2 可以在生成含有特定文字或短語的物體圖像時(shí)，確保輸出圖像中包含正確短語。

Logo 設(shè)計(jì)：Imagen 2 能為品牌、產(chǎn)品等生成多種創(chuàng)意和逼真的 Logo，比如徽章、字母甚至非常抽象的 Logo。

標(biāo)注和問答：利用增強(qiáng)的圖像理解能力，Imagen 2 能夠創(chuàng)建詳細(xì)的長文標(biāo)注，并對(duì)圖像內(nèi)元素提出的問題給出詳細(xì)答案。

多語言提示：除了英語，Imagen 2 還支持其他 6 種語言（中文、印地語、日語、韓語、葡萄牙語、西班牙語），并計(jì)劃在 2024 年初增加更多語言。這項(xiàng)功能還包括提示與輸出之間的翻譯能力，比如，可以用西班牙語提示，但指定輸出為葡萄牙語。

圖像加水印，生成更安全

為了幫助降低文本到圖像生成技術(shù)的潛在風(fēng)險(xiǎn)和挑戰(zhàn)，谷歌從設(shè)計(jì)和開發(fā)到產(chǎn)品部署都設(shè)置了強(qiáng)大的護(hù)欄。

Imagen 2 集成了 SynthID—— 用于加水印和識(shí)別 AI 生成內(nèi)容的尖端工具包。

這樣，Google Cloud 平臺(tái)的客戶可以直接在圖像中添加數(shù)字水印，同時(shí)不會(huì)降低圖像質(zhì)量。

不過，即使在對(duì)圖像進(jìn)行過濾、裁剪或使用有損壓縮方案保存后，SynthID 仍然可以檢測出。

除此之外，在向所有用戶推出之前，谷歌會(huì)進(jìn)行強(qiáng)大的安全測試，以最大限度地降低傷害風(fēng)險(xiǎn)。

從一開始，谷歌團(tuán)隊(duì)就投入對(duì) Imagen 2 的數(shù)據(jù)安全訓(xùn)練，并添加了技術(shù)護(hù)欄來限制有問題的輸出，如暴力、冒犯或色情內(nèi)容。

同時(shí)，谷歌還對(duì)訓(xùn)練數(shù)據(jù)、輸入提示和系統(tǒng)生成的輸出進(jìn)行安全檢查。比如正在應(yīng)用全面的安全過濾器，以避免生成名人圖像等有潛在問題的內(nèi)容。

網(wǎng)友驚呼：真?最強(qiáng)文生圖模型來了！

Google DeepMind 研究副總裁兼深度學(xué)習(xí)主管 Oriol Vinyals 嘗試用 Imagen 2 為 Gemini 生成徽標(biāo)。

另一位谷歌科學(xué)家用 Imagen 2 生成的圖像如下。

下面是一只網(wǎng)友實(shí)測生成的藍(lán)貓。

有網(wǎng)友認(rèn)為，Imagen 2 是同類產(chǎn)品中最好的。就像 Gemini Ultra 一樣，看手和文字就足夠了。

不過，他還吐槽了谷歌不向所有人開放產(chǎn)品的問題。

「像往常一樣，谷歌宣布了一款大多數(shù)人無法使用的產(chǎn)品，這有什么意義？！」

參考資料：

https://deepmind.google/technologies/imagen-2/
https://cloud.google.com/blog/products/ai-machine-learning/imagen-2-on-vertex-ai-is-now-generally-available

本文來自微信公眾號(hào)：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，所有文章均包含本聲明。

總結(jié)

以上是生活随笔為你收集整理的谷歌文生图巅峰之作 Imagen 2 登场，实测暴打 DALL・E 3 和 Midjourney的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：中国工程院院士王子才教授逝世，曾研发空间
下一篇：【技术贴】注册表修改Win7默认字体为X