MSRA、北大的女娲:图像视频生成的大一统模型
點擊上方“機器學習與生成對抗網絡”,關注星標
獲取有趣、好玩的前沿干貨!
新智元 編輯:好困 小咸魚 LRS
【新智元導讀】微軟亞洲研究院、北京大學強強聯合提出了一個可以同時覆蓋語言、圖像和視頻的統一多模態預訓練模型——NüWA(女媧),直接包攬8項SOTA。其中,NüWA更是在文本到圖像生成中完虐OpenAI DALL-E。
太卷了,太卷了!
在幾年前,要說AI能直接用一段文字描述生成清晰的圖像,那可真是天方夜譚。
結果現在,Transformer的出現徹底帶火了「多模態」這一領域。
照著文字「腦補」圖像居然都不稀奇了!
更夸張的是,竟然有AI已經可以用文字描述去生成一段視頻了,看上去還挺像模像樣的。
這個AI不僅看文字描述可以生成視頻,給它幾幅草圖,一樣能「腦補」出視頻來!
這么秀的AI出自何方神圣啊?
答案是微軟亞洲研究院+北京大學強強聯合的研究團隊!
最近,微軟可謂是跟OpenAI「干」上了。
前腳剛推出取得了40多個新SOTA的Florence「佛羅倫薩」吊打CLIP,橫掃40多個SOTA。
后腳就跟著放出NüWA「女媧」對標DALL-E。
今年1月,OpenAI官宣了120億參數的GPT-3變體DALL-E。
論文地址:https://arxiv.org/pdf/2102.12092.pdf
DALL-E會同時接收文本和圖像作為單一數據流,其中包含多達1280個token,并使用最大似然估計來進行訓練,以一個接一個地生成所有的token。
這個訓練過程讓DALL-E不僅可以從頭開始生成圖像,而且還可以重新生成現有圖像的任何矩形區域,與文本提示內容基本一致。
從文本「一個穿著芭蕾舞裙遛狗的蘿卜寶寶」生成的圖像示例
同時,DALL-E也有能力對生成的圖像中的物體進行操作和重新排列,從而創造出一些根本不存在的東西,比如一個「一個長頸鹿烏龜」:
這次,MSRA和北大聯合團隊提出的統一多模態預訓練模型——NüWA(女媧),則可以為各種視覺合成任務生成新的或編輯現有的圖像和視頻數據。
論文地址:https://arxiv.org/pdf/2111.12417.pdf
GitHub地址:https://github.com/microsoft/NUWA
為了在不同場景下同時覆蓋語言、圖像和視頻,團隊設計了一個三維變換器編碼器-解碼器框架,它不僅可以處理作為三維數據的視頻,還可以適應分別作為一維和二維數據的文本和圖像。
此外,論文還提出了一個3D鄰近注意(3DNA)機制,以考慮視覺數據的性質并降低計算的復雜性。
在8個下游任務中,NüWA在文本到圖像生成、文本到視頻生成、視頻預測等方面取得了新的SOTA。其中,在文本到圖像生成中的表現直接超越DALL-E。
同時,NüWA在文本引導的圖像和視頻編輯任務中顯示出優秀的zero-shot能力。
NüWA模型支持的8種典型視覺生成任務
8大SOTA效果搶先看
文字轉圖像(Text-To-Image,T2I)
草圖轉圖像(SKetch-to-Image,S2I)
圖像補全(Image Completion,I2I)
用文字指示修改圖像(Text-Guided Image Manipulation,TI2I)
文字轉視頻(Text-to-Video,T2V)
視頻預測(Video Prediction,V2V)
草圖轉視頻(Sketch-to-Video,S2V)
用文字指示修改視頻(Text-Guided Video Manipulation,TV2V)
NüWA為啥這么牛?
NüWA模型的整體架構包含一個支持多種條件的adaptive編碼器和一個預訓練的解碼器,能夠同時使圖像和視頻的信息。
對于圖像補全、視頻預測、圖像處理和視頻處理任務,將輸入的部分圖像或視頻直接送入解碼器即可。
NüWA的結構概述
模型支持所有文本、圖像、視頻輸入,并將他們統一視作token輸入,所以可以定義一個統一的向量表示X,維度包括高度h、寬度w,時間軸上的token數量s,每個token的維度d。
文本天然就是離散的,所以使用小寫后的byte pair encoding (BPE)來分詞,最終的維度為1×1×s×d中。因為文本沒有空間維度,所以高度和寬度都為1。
圖像輸入是連續的像素。每個圖像輸入的高度為h、寬度為w和通道數為c。使用VQ-VAE訓練一個編碼把原始連續像素轉換為離散的token,訓練后B[z]的維度為h×w×1×d作為圖像的表示,其中1 代表圖像沒有時序維度。
視頻可以被視為圖像的一種時序展開,最近一些研究如VideoGPT和VideoGen將VQ-VAE編碼器中的卷積從2D擴展到3D,并能夠訓練一種針對視頻輸入的特殊表征。?
但這種方法無法使圖像和視頻的表示統一起來。研究人員證明了僅使用2D VQ-GAN 就能夠編碼視頻中的每一幀,并且能生成時序一致的視頻,結果表示維度為h×w×s×d,其中s代表視頻的幀數。
對于圖像素描(image sketch)來說,可以將其視為具有特殊通道的圖像。
H×W的圖像分割矩陣中每個值代表像素的類別,如果以one-hot編碼后維度為H×W×C,其中c是分割類別的數目。通過對圖像素描進行額外的VQ-GAN訓練,最終得到圖像embedding表示維度為 h×w×1×d。同樣地,對于視頻草圖的embedding維度為h×w×s×d。
基于統一的3D表示,文中還提出一種新的注意力機制3D Nearby Self-Attention (3DNA)?,能夠同時支持self-attention 和cross-attention。
3DNA考慮了完整的鄰近信息,并為每個token動態生成三維鄰近注意塊。注意力矩陣還顯示出3DNA的關注部分(藍色)比三維塊稀疏注意力和三維軸稀疏注意力更平滑。
不同的三維稀疏注意力機制的比較
基于3DNA,文中還引入了3D encoder-decoder,能夠在條件矩陣Y 為h'×w'×s'×d^{in}的情況下,生成h×w×s×d^{out} 的目標矩陣C,其中Y和C由三個不同的詞典分別考慮高度,寬度和時序維度。
然后將條件C和一個堆疊的3DNA層輸入到編碼器中來建模自注意力的交互。
解碼器也是由3DNA層堆疊得到,能夠同時計算生成結果的self-attention和生成結果與條件之間的cross-attention。
最終的訓練包含了三個目標任務Text-to-Image(T2I), Video Prediction (V2V)?和Text-to-Video(T2V),所以目標函數包含三部分。
對于T2I和T2V任務,C^text表示文本條件。對于V2V任務,由于沒有文本輸入,所以c為一個常量,單詞None的3D表示,θ表示模型參數。
實驗結果
文本轉圖像(T2I)
作者使用FID-k和Inception Score(IS)來分別評估質量和種類,并使用結合了CLIP模型來計算語義相似度的CLIPSIM指標。
公平起見,所有的模型都使用256×256的分辨率,每個文本會生成60張圖像,并通過CLIP選擇最好的一張。
可以看到,NüWA以12.9的FID-0和0.3429的CLIPSIM成績,明顯地優于CogView。
在MSCOCO(256×256)數據集上與SOTA的定量比較
盡管XMC-GAN的FID分數為9.3,但與XMC-GAN的論文中完全相同的樣本相比,NüWA生成的圖像更加真實。特別是在右下角的那個例子中,男孩的臉更清晰,氣球也是正確的。
在MSCOCO(256×256)數據集上與SOTA的定性比較
文本轉視頻(T2V)
作者在Kinetics數據集上與現有的SOTA進行了比較,其中,在FID-img和FID-vid指標上評估視覺質量,在生成視頻的標簽準確性上評估語義一致性。
顯然,NüWA在上述所有指標上都取得了SOTA。
在Kinetics數據集上與SOTA的定量比較
此外,對于生成未見過的文本來說,NüWA在定性比較中顯示出了強大的zero-shot能力,如「在游泳池打高爾夫球」以及「在海上跑步」。
在Kinetics數據集上與SOTA的定性比較
圖像補全(I2I)
作者定性地比較了NüWA的zero-shot圖像補全能力。
在只有塔的上半部分的情況下,與Taming Transformers相比,NüWA在對塔的下半部分進行補全時,展現出更豐富的想象力,自主添加了建筑、湖泊、鮮花、草地、樹木、山脈等等。
以zero-shot方式與現有SOTA進行定性比較
視頻預測(V2V)
作者在BAIR數據集上進行了定量比較,其中,Cond.表示預測未來幀的幀數。
為了進行公平的比較,所有的模型都使用64×64的分辨率。盡管只給了一幀作為條件(Cond.),NüWA仍將FVD的SOTA得分從94±2推至86.9。
在BAIR(64×64)數據集上與SOTA的定量比較
草圖轉圖像(S2I)
通過定性比較在MSCOCO上的表現可以看到,與Taming-Transformers和SPADE相比,NüWA生成的圖像種類更多,有的甚至連窗戶上的反射也清晰可見。
在MSCOCO數據集上與SOTA的定性比較
用文本引導圖像修改(TI2I)
作者以zero-shot的方式對NüWA和現有SOTA進行了定性的比較。
與Paint By Word相比,NüWA表現出了很強的編輯能力,在不改變圖像其他部分的情況下,產生了高質量的結果。這得益于通過對各種視覺任務進行多任務預訓練而學到的真實世界的視覺模式。
比如在第三個例子中,由NüWA生成的藍色卡車更加逼真,而且后方的建筑物也沒有產生奇怪的變化。
另一個優點是NüWA的推理速度,只需要50秒就能生成一幅圖像,而Paint By Words在推理過程中需要額外的訓練,并需要大約300秒才能收斂。
以zero-shot方式與現有SOTA進行定性比較
結論
文章提出了一種統一的預訓練模型NüWA,這個女媧不光能補天,也能造圖,可以為8個視覺合成任務生成新的或操作現有的圖像和視頻。
還提出了一個通用的3D encoder-decoder框架,能夠同時覆蓋文本、圖像和視頻。能同時考慮空間和時序維度的3D nearby-sparse attention機制。
這也是邁向人工智能平臺的重要一步,能夠讓計算機擁有視覺,并輔助內容創作者生成一些人類想象力以外的事。
P.S. 本文截圖由ReadPaper自動截取生成(還挺好用,狗頭)。
參考資料:
https://arxiv.org/abs/2111.12417
https://github.com/microsoft/NUWA
猜您喜歡:
等你著陸!【GAN生成對抗網絡】知識星球!
CVPR 2021專題1:GAN的改進
CVPR 2021 | GAN的說話人驅動、3D人臉論文匯總
CVPR 2021 | 圖像轉換 今如何?幾篇GAN論文
【CVPR 2021】通過GAN提升人臉識別的遺留難題
CVPR 2021生成對抗網絡GAN部分論文匯總
經典GAN不得不讀:StyleGAN
最新最全20篇!基于 StyleGAN 改進或應用相關論文
超100篇!CVPR 2020最全GAN論文梳理匯總!
附下載 | 《Python進階》中文版
附下載 | 經典《Think Python》中文版
附下載 | 《Pytorch模型訓練實用教程》
附下載 | 最新2020李沐《動手學深度學習》
附下載 |?《可解釋的機器學習》中文版
附下載 |《TensorFlow 2.0 深度學習算法實戰》
附下載 | 超100篇!CVPR 2020最全GAN論文梳理匯總!
附下載 |《計算機視覺中的數學方法》分享
總結
以上是生活随笔為你收集整理的MSRA、北大的女娲:图像视频生成的大一统模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 三相全控桥式整流matlab仿真,基于m
- 下一篇: leetcode_885. 螺旋矩阵 I