當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大规模计算时代：深度生成模型何去何从

發布時間：2024/10/8 编程问答 39 豆豆

生活随笔收集整理的這篇文章主要介紹了大规模计算时代：深度生成模型何去何从小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?PaperWeekly 原創 ·?作者｜Chunyuan Li

單位｜Microsoft Research Researcher

研究方向｜深度生成模型

人工智能的核心愿望之一是開發算法和技術，使計算機具有合成我們世界上觀察到的數據的能力, 比如自然語言，圖片等等。?

每當我們建立一個模型來模仿這種能力時，該模型就稱為生成模型（Generative Models）。?
如果該模型涉及深度神經網絡，則該模型是深度生成模型（Deep Generative Models, 簡稱 DGMs）。?

作為深度學習中自我監督學習（self-supervised learning）技術的一個分支，DGM 特別專注于刻畫數據的生成過程。這篇文章回顧了 DGM 的歷史，定義和現狀，并分享最新的一些研究結果。最終希望啟發大家去思考一個共同的主題：如何在大規模預訓練時代推進或應用深度生成模型。

歷史回顧和基礎知識：三種類型的深度生成模型和一個通用技巧

生成模型（Generatitve Models）在傳統機器學習中具有悠久的歷史，它經常與另外一個主要方法（判別模型，Discriminative Models）區分開。我們可以通過一個故事 [1] 學到它們有何不同：有兩兄弟，他們具有不同的特殊能力，一個具有深入洞察事物內在的能力，而另一個善于學習所見事物之間的差異。在故事里，前者代表生成模型，而后者代表區分模型，他們的特點總結為：?

生成模型：專注于使用某種內部機制來表征實際觀察的事物的分布；
區分模型：專注于在不同事物之間建立決策邊界。?

隨著深度學習的興起，生成模型通過和深度神經網絡的結合，逐漸形成了一個新的家族：深度生成模型。他們這個家族有個共同的特點，就是利用神經網絡來模擬數據生成的過程。

這樣以來，復雜而神秘的數據生成過程就被某個參數量一定的神經網絡的給擬合出來了，加之訓練這個 DGM 的數據庫本身大小也是確定的，這里就會出現一個潛在的通用技巧。引用 2016 年一篇 OpenAI 博客?[2] 上的話來說：?

我們用作生成模型的神經網絡具有許多參數，這些參數遠小于我們在訓練它用的數據量，因此模型會被迫使發現并有效地內化數據的本質，從而以生成數據。

簡單地做一些數學上的刻畫。作為來自真實數據分布??的樣本, 用于建模的數據集為?。深度生成模型的目標是使用參數為??的深度神經網絡，來建立一個描述分布?，然后通過訓練來不斷地調整參數 θ，使得模型輸出的分布去盡量接近真實數據分布。

所有 DGM 都具有上述相同的基本目標和通用技巧，但是它們處理問題的思路方式不同。根據 OpenAI 的分類法，我們這里考慮三種流行的模型類型：VAE，GAN，自回歸模型（autoregressive models），詳見下表：

表格1. 不同深度學習模型的對比。不同類別標記為不同的顏色，它們對應的變種也用相同的顏色展示在下面的圖1里。

從小型到大型的深度生成模型轉變

多年來，我們在發展 DGM 及其理論原理方面做出了許多努力，DGM 在較小的規模上現在已得到相對較好的理解。上面提到的 DGM 技巧保證模型在溫和條件下可以正常運行：；許多在小規模設定下的研究已經驗證了這一點。但是近期的研究表明, 預訓練模型可以通過在海量數據上進行自監督學習，以獲得了巨大的進步和驚人的實驗結果（N 急劇增加）。

圖1. 我們考慮了三種流行的深度生成模型類型：藍色的自動回歸模型（神經語言模型，或NLM），綠色的可變自動編碼器（VAE）和橙色的生成對抗網絡（GAN）。Transformer和BERT作為重要的文獻參考點也包括在圖里，但并不作為本文考察重點。圖里最右邊的三個新模型，是在大規模計算的時代下我們自己的工作。

上圖總結了深度生成模型隨時間的簡短演變歷史，通過兩種指標來衡量：?

模型大小（參數數量）?
科學影響力（迄今為止的引用次數）?

OpenAI 的研究人員認為，生成模型是最有前途的方法之一，可以潛在地實現用計算機了解世界的目標。

沿著這些思路，他們在 2018 年開發了 Generative Pre-training (GPT) [3]，在各種未標記文本的語料庫上訓練了自回歸神經語言模型（neural language model，簡稱 NLM [4]），隨后對每個特定任務進行了區分性微調，從而顯著提高了多項任務的性能語言理解任務。

在 2019 年，他們將這一想法進一步擴展到 15 億個參數，并開發了 GPT-2 [5]，該模型顯示了近乎人類的語言生成能力。隨著更多的計算，英偉達的 Megatron [6] 和微軟的 Turing-NLG [7] 繼承了相同的想法，并將其參數分別擴展到 83 億和 170 億。?

以上研究表明，NLM 已取得了巨大進步（大大增加 P?去匹配 N）。但是，作為自回歸模型，NLM 僅僅是 DGM 的三種類型之一。還有兩種其他類型的 DGM（VAE 和 GAN），雖然他們學術影響力很大，但在大規模計算大行其道的當代，它們到底會有怎么樣的表現呢？

在這個時代，大型模型通過大規模計算在大型數據集上進行訓練，這催生了新的學習范式：自我監督學習的預訓練+特定任務的微調。在這種范式下，由上圖可見，我們對大規模的 DGM 的研究較少（比如并沒有 200M 參數量以上的 VAE 或者 GAN），我們也并不確定 DGM 的通用技巧是否仍可以在這種情況下很好地用于工業實踐。

由此，我們可以提出了一系列研究問題：

1. 機遇：如果我們把 DGM 做到大規模，是否能和現有的預訓練模型一爭高低？?

2. 挑戰：現有 DGM 是否需要進行修改，以使其在此大規模的數據上有效地工作？?

3. 應用：反過來做，DGM 是否可以幫助預訓練？?

接下來，我們用自己的研究結果作為例子，來對這些問題一一進行回答。?

1. Optimus：我們開發了第一個大規模的 VAE 模型，展示出比起主流的語言建模預訓練模型（比如 BERT 和 GPT-2）的一些優勢。

2. FQ-GAN：作為以分布匹配為目標的 GAN，在大數據上訓練尤其困難，我們提出 FQ 作為一種有效的解決技巧，展示出在 BigGAN [8], StyleGAN?[9], U-GAT-IT [10] 這些主流模型上的性能提升。

3. Prevalent：我們使用生成模型合成大量多模態數據，并在此基礎上進行自我監督學習，預訓練了第一個通用的視覺語言導航系統 [11]，在三個相關任務上取得 SoTA。

讀者可以直接跳到相應的章節閱讀具體內容。

Optimus: 在語言建模領域的機遇

論文標題：Optimus: Organizing Sentences via Pre-trained Modeling of a Latent Space

論文鏈接：https://arxiv.org/abs/2004.04092

代碼鏈接：https://github.com/ChunyuanLI/Optimus

預訓練語言模型（Pre-trained language models ，簡稱 PLM）在各種自然語言處理任務方面取得了實質性進展。PLM 通常經過訓練，可以根據海量文本數據中的上下文預測單詞，并且可以對學習的模型進行微調以適應各種下游任務。?

PLM 通常可以扮演兩個不同的角色：編碼器（例如 BERT [12] 和 Roberta [13]）和解碼器（例如 GPT-2 [5] 和 Megatron [6]）。有時，兩個任務都可以在一個統一的框架中執行，例如 UniLM [14]， BART?[15] 和 T5 [16]。盡管這些已取得了顯著的性能改進，但是它們缺乏一種在緊湊的特征空間對結構進行顯式建模的功能，因此很難從整體句子的語義級別控制自然語言的生成和表示。?

原理上來說，變分自動編碼器（VAE）經過有效訓練后，既可以作為強大的生成模型使用，又可以作為自然語言的有效表示學習框架來使用。VAE 把句子表示在低維的特征空間中，通過操縱句子對應的特征向量表示來輕松操縱句子語義上的變化（比如使用可解釋的向量運算符等），操作后的向量作為整體語義的概要，來指導句子的生成。?

例如，基本款的 VAE 就提供了一種由先驗分布來指定的特征平滑的正則化。下圖展示了 VAE 操縱句子變換的過程。

圖2.?在語義空間組織和操縱句子

我們來利用下面的公式對比，詳細了解下自回歸模型和 VAE 在建模句子時候的不同。對于長度為 T 句子?，自回歸模型 NLM 會以前的單詞們??為條件來生成當前的單詞?，如式（1）所示。?

GPT-2 也許是最著名的自回歸模型 NLM 的實例，其優勢來自由于在大量文本上進行預訓練。這種自回歸模型缺乏一種由高層語義指導的生成的能力。相反，VAE 生成時，既依賴了先前的單詞標記，又依賴了一個潛在變量 z，如式（2）所示。?

潛在變量 z 決定了句子的主要“輪廓”，例如時態，主題或情感，它會指導解碼器在順序解碼的過程中按照輪廓來填充細節。將解碼器 decoder θ 與編碼器 encoder Φ 組合，我們就得到了 VAE 模型，它通過最大化對數似然下限 [17] 來學習參數。

盡管 VAE 具有扎實的理論優勢，但當前語言建模中使用的 VAE 經常使用較小的網絡體系結構（例如兩層 LSTM）來構建模型，這大大限制了模型的容量，導致性能欠佳。這種淺層 VAE，在當下的海量數據的時代，就尤其顯得不適配——因為上文提到的 DGM 的通用技巧會崩潰：。?

如果擴大 VAE 模型，并將其用作新的預訓練語言模型（PLM），將會發生什么？

因此，我們開發了 Optimus (Organizing sentences with pre-trained modeling of a universal latent space)，第一個針對自然語言的大規模深度隱變量模型，該模型使用句子級別的（可變）自動編碼器在大型文本語料庫進行了預訓練，從而將由符號表達的自然語言組織在一個連續且緊湊的特征空間里，把對句子的語義操作轉換為對向量的算術操作。?

Optimus 體系結構如下圖（a）所示。為了易于培訓，我們使用 BERT 初始化編碼器，并使用 GPT-2 初始化解碼器。[CLS] 位置輸出的特征用于轉化我們感興趣的語義空間 z。

為了有效地利用 GPT-2 本身預訓練的結果且不重新訓練權重，我們研究了兩種方案來把特征 z 送給編碼器，并讓它被用起來，如圖（b）所示：1）z 充當了解碼器的附加存儲向量的作用出席；2）被添加到解碼器的底部嵌入層，并在每個解碼步驟中直接使用。

從經驗上，我們發現基于內存的方案效果更好。為了避免臭名昭著的特征消失問題，我們對 KL 項采用了一些特殊處理，包括周期性變化系數 [18]（cyclical annealing schedule）的技巧和按維度進行閾值處理?[19]（dimension-wise thresholding）的技術。

圖3. (a) Optimus體系結構，由編碼器和解碼器組成，(b) 向編碼器注入特征向量的兩種方式

作為一種新型的 PLM，Optimus 顯示出一些有趣的結果，具有與現有 PLM 相比的獨特優勢：?

語言建模：我們考慮了四個數據集，包括 Penn Treebank, SNLI, Yahoo 和? Yelp 語料庫，并對每個 PLM 進行微調。由于 VAE 獨特的先驗分布中編碼的語義知識，Optimus 在三個數據集上展示了低于 GPT-2 的困惑度（perplexity）。?

另外，和文獻中所有的自然語言上的 VAE 相比，Optimus 顯示了更好的特征學習性能，以相互信息（mutual information）[20]?和活動單位（active units）[21]?衡量。這意味著預訓練本身就是緩解特征消失問題的有效方法。?

引導性的語言生成：由于潛在變量 z 的存在，Optimus 具有從語義級別控制句子生成的獨特優勢（GPT-2 在此方面是不適用的）。這種可控制性給用戶提供了一種新的方式來和語言生成模型進行交互。?

在圖 4 中，我們展示了兩種使用一些簡單的潛在矢量操縱來說明這種想法：（1）通過潛在矢量的算術運算進行句子的類比寫作：，（2）兩個句子之間的過度：，其中?。

對于更復雜的潛在空間的句子操縱功能，我們考慮對話響應生成（dialog response generation），風格化響應生成（stylized response generation）和標簽條件語句生成（label-conditional sentence generation）這些任務。Optimus在所有這些任務上都比現有方法具有優勢。

圖4. (a) 句子類比生成；(b) 句子插補。藍色表示生成的句子。

低資源下的語言理解：與 BERT 相比，Optimus 學習的特征空間更平滑，特征模式更分離（請參見圖 4a 和 4b）。在凍結主干網絡且僅更新分類器的微調設定下（feature-based setting）, Optimus 能夠比 BERT 獲得更好的分類性能和更快的適應性，因為它允許 Optimus 維護和利用到在預訓練中學習到的語義結構。?

圖 4c 顯示了在 Yelp 數據集上每個類別帶有不同數量的標記樣本的結果，Optimus 在低計算場景（feature-based setting）中顯示了更好的結果。我們在 GLUE 數據集上可以觀察到類似的比較。

圖5. (a) 和 (b) 分別展示了使用tSNE對Optimus和BERT進行特征空間可視化的結果。具有不同標簽的句子以不同的顏色呈現。(c) 不同數量的帶有標簽數據的結果

感興趣更多詳細結果，請查看我們的論文，在 Github 上試試 Optimus 的代碼。

FQ-GAN: 圖像生成中的挑戰

論文標題：Feature Quantization Improves GAN Training

論文鏈接：https://arxiv.org/abs/2004.02088

代碼鏈接：https://github.com/YangNaruto/FQ-GAN

Generative Adversarial Networks （GAN）是一種流行的圖像生成模型。它由兩個網絡組成：一個用于直接合成模擬樣本的生成器（generator），以及一個用于區分真實樣本 () 和偽樣本?(?) 的鑒別器（discriminator）。GAN 以對抗的方式訓練這兩個網絡，以便偽造的數據分布可以匹配真實的數據分布。?

特征匹配（Feature matching）[22]?一項有理論支撐的訓練 GAN 的原理技術, 它將 GAN 的數據分布匹配問題轉換為鑒別器特征空間中的特征分布匹配問題。這要求從整體偽造樣本和整體真實樣本中算得的特征統計量要相似，比如，一階或二階矩。

但實際實現上，這些特征統計量是使用連續特征空間中的小批量數據（mini-batch）來估計的。隨著數據集變得更大和更復雜（例如，更高的分辨率），基于小批量的估計質量變得很差。因為在固定大小的批量去估計更大的數據集，估計方差很大。對于 GAN 來說，這個問題尤為嚴重，因為生成器的偽造樣本分布在訓練中總是在變化 [23]，這對于大規模擴展 GAN 模型提出了新的挑戰。?

為解決此問題，我們在論文 Feature Quantization Improves GAN Training 中提出了鑒別器的特征量化（FQ）的技術，將特征表示量化在一個字典空間里，而非它原來的連續空間。?

FQ-GAN 的神經網絡架構如圖 6a 所示。相比較于原來的 GAN 模型，我們僅僅需要把 FQ 作為一個新的層，嵌入到區分器中某一層或者多層。FQ-GAN 將原來的連續特征限制在一組學習好的字典的元素上；而這里的字典元素，則一直代表著當前真假樣本最具代表性的特征。?

由于真假樣本只能從有限的詞典元素中選擇其表示形式，因此 FQ-GAN 間接執行特征匹配。這可以使用圖 6b 中的可視化示例進行說明，其中將真實樣本特征??和偽樣本特征??量化為相同的質心（在此示例中，真假特征最后都量化到了和它們顏色一致的中心值了）。?

我們使用移動平均值更新（moving average updates）來實現不斷更新的字典 E，使得該字典 E 確保包含一組與當前真假樣本特征一致的元素。

圖6. (a) FQ-GAN架構：我們的FQ可以作為標準GAN區分器中的新層來添加進去。(b) 用字典查找來實現隱式特征匹配。相同顏色的小散點們表示可以量化為相同中心（大圓圈）的連續特征；在經過FQ之后，真實特征（正方形）和偽特征（三角形）會共享相同的中心。

我們所提出的 FQ 技術可以輕松地應用到現有的 GAN 模型中，且在訓練中的計算開銷卻很小。大量的實驗結果表明，FQ-GAN 可以在各種任務上大幅度提高基線方法的圖像生成質量，我們嘗試了在 9 個基準數據集上的 3 個代表性GAN模型：?

BigGAN 圖像生成。BigGAN [8]?是由 Google DeepMind 于 2018 年推出的，它是我們知道的最大的 GAN 模型。我們在以下三個數據集上將 FQ-GAN 與 BigGAN 進行了比較：CIFAR 10，CIFAR 100 和 ImageNet。這三個數據集依次具有越來越多的圖像類別或者樣本。?

就 FID 值（該指標衡量了真假數據之間的特征統計差異）而言，FQ-GAN 始終優于 BigGAN 超過 10％。我們的方法還改進了 Twin Auxiliary Classifiers GAN [24]，這是在 NeurIPS 2019 上出現的 GAN 的一個新變體，它特別適合細粒度的圖像數據集。?

StyleGAN 人臉合成。StyleGAN [9]，是由 NVIDIA 在 2018 年 12 月推出的，該模型可以生成特別逼真的高分辨率人臉面部肖像的圖像（想象下 Deep Fake 的潛在影響）。StyleGAN 是基于 Progressive GAN [25]?進行改進的，但它引入更多使研究人員可以更好地控制特定的視覺功能的機制。?

我們在 FFHQ 數據集上進行比較，圖像分辨率從 32x32 一直到 1024x2014。結果顯示 FQ-GAN 收斂速度更快，并產生更好的最終性能。感受一下：

表格2. FQ對StyleGAN的提升。在FFHQ數據集上不同分辨率下的 FID-50k scores （越低越好）

圖7. FQ-StyleGAN的生成的1024x2014的樣例圖片（在8塊V100上訓練一周多就為看這些美女帥哥？）

U-GAT-IT 圖像轉化。U-GAT-IT [10]?是剛出現在 ICLR 2020 上的最先進的圖像樣式轉換（image style transfer）方法。在五個基準數據集上，我們看到 FQ 在很大程度上改善了量化性能，并顯示了更好的人類感知評估結果。?

如果你想使用 FQ 改善你的 GAN 模型，那趕緊嘗試我們在 GitHub 上的代碼，并查看我們的論文去了解更多細節。

Prevalent: 在視覺和語言導航任務上的應用

論文標題：Towards Learning a Generic Agent for Vision-and-Language Navigation via Pre-training

論文鏈接：https://arxiv.org/abs/2002.10638

代碼鏈接：https://github.com/weituo12321/PREVALENT

通過對圖像和語言的語義的進一步了解，自然而然的下一步就是使機器在理解多模態輸入后能采取行動以完成指定任務。為了實現此目標，我們碰到的一項基本挑戰就是“遵循自然語言的指示并讓機器能夠學習如何在視覺環境中導航” （vision-and-language navigation，簡稱 VLN）。在理想情況下，我們希望一次性地訓練一個通用的機器，它可以迅速適應多個不同的下游任務。?

為此，我們提出了 Prevalent，第一個遵循預訓練和微調范式的 VLN 算法。如圖 8a 所示，我們將預訓練的數據樣本表示為三元組（圖像-文本-動作），并以兩個目標對模型進行預訓練：掩蓋語言建模（masked language modeling）和動作預測（action prediction）。?

由于預訓練不涉及最終的下游學習目標，因此這種自我監督的學習方法通常需要大量的訓練樣本才能發現多模態數據的內部本質，從而很好地泛化到新任務上。?

在我們的研究中，我們發現該子領域最大的訓練數據集 R2R 僅包含 104,000 個樣本，這比用于自然語言（language pre-training）還有多模態（vision-and-language pretraining ）的那些子領域的預訓練數據集要小一個數量級。這會導致以下尷尬的情況：一方面由于訓練數據不足而使得預訓練質量不理想，另一方面，使用人工注釋來收集此類樣本又非常昂貴。?

在我們的論文 Towards Learning a Generic Agent for Vision-and-Language Navigation via Pre-training 中，我們嘗試了用深度生成模型來合成這些多模態數據，很幸運地發現這樣做居然是有效果的。?

我們首先訓練一個自動回歸模型（相當于 VLN 領域的 Speaker 模型 [26]），該模型可以根據 R2R 數據集上的機器人的軌跡（一系列的動作和視覺圖像的序列）生成語言指令。然后，我們使用模擬器（Matterport 3D Simulator）[27]?收集大量的最短軌跡，并使用生成模型合成它們相應的指令。這產生了 6,482,000 個新的訓練樣本。?

通過圖 8b 中比較了這兩個數據集，我們看到合成數據占了 98.4% 的預訓練數據。我們的 Prevalent 就是預訓練在這樣的組合數據集上。

圖8. (a) 模型學習的流程：在大量增強的R2R數據集中對機器進行預訓練，并在三個下游任務上進行微調；(b) 預訓練數據集的百分比：98.4％的合成數據和1.6％的真實數據。

預訓練好模型后，我們嘗試了三個下游導航任務的微調，包括房間到房間的導航（R2R），和兩個域外任務：對話指導的視覺導航（CVDN）以及和人類交互更多的導航任務（HANNA）。我們的算法在這三個任務上都達到了最先進的水平。這些結果標明，深度生成模型合成的樣品可用于預訓練，并且可以提高其模型的通用性。?

有關更多詳細信息，請閱讀我們的 CVPR 2020 論文 Towards Learning a Generic Agent for Vision-and-Language Navigation via Pre-training。我們在 GitHub 上發布了 Prevalent 的預訓練模型，數據集和代碼。我們希望它可以為將來在視覺和語言導航這個子領域的自我監督預訓練方面的研究奠定堅實的基礎。

展望未來

從上面的示例中，我們已經看到了在大規模訓練時代，深度生成模型的的機遇，挑戰和應用。下面我們謹慎地探討下，這個時代背景下，深度生成模型未來可以開展的工作：?

落地實用：隨著我們繼續推進這些模型并擴大其規模，我們可以期望 DGM 去合成高保真的圖像或語言樣本。這本身可能會在各個領域中會被真正地落地實用起來，例如藝術圖像合成?[28]?或面向任務的對話 [29]。?

技術組合：這三種深度學習模型類型的界限會很容易變得模糊，研究人員可以結合不同模型的優勢進行進一步的改進。小規模的設置里已經有非常多融合的工作，那大規模的情況，是否會有新的技術難題呢？借助已經被極度大規模化的 autogressive models，其它模型類別是否會因此受益呢？?

自我監督學習：這個我個人最感覺興趣的方向。1）利用生成模型提升自我監督學習的性能，比如 Electra [39]。2）作為自我監督學習的一個分支，DGM 本身在基礎工作上的進展也會在更加廣泛的意義上影響自我監督學習。

比如，上文交代的 DGM 的通用技巧，更深入一層的思考，其實也是自我監督學習的通用技巧：有限參數量的神經網絡，在學會生成（部分）觀察到的數據的中對其過程進行編碼，這必須要求模型本身可以有效地學習并發現掌握數據的本質，從而推理出對許多下游任務都通用的良好表達。

致謝?

首先感謝我的合作者們一起完成這些研究結果。另外，我們自己的研究實現基于 GitHub 上一些開源項目，在此對代碼的作者們表示感謝：HuggingFace Transformers [31], BigGAN [8], StyleGAN [9], U-GAT-IT [10], Matterport3D Simulator [27], Speaker-Follower [26].?

更多深度生成模型的基礎知識學習資源，可以參考最近的大學課堂教程：斯坦福大學 [32]（網絡課程 [33]），加州伯克利大學 [34]，哥倫比亞大學 [35]，紐約大學 [36]。?

如果你對類似的研究課題也感興趣，歡迎探討，合作。了解更多：http://chunyuan.li/

相關鏈接

[1] https://medium.com/@mlengineer/generative-and-discriminative-models-af5637a66a3?

[2] https://openai.com/blog/generative-models/?

[3] https://openai.com/blog/language-unsupervised/?

[4]?http://www.jmlr.org/papers/volume3/bengio03a/bengio03a.pdf?

[5] https://openai.com/blog/better-language-models/?

[6] https://arxiv.org/abs/1909.08053?

[7] https://www.microsoft.com/en-us/research/blog/turing-nlg-a-17-billion-parameter-language-model-by-microsoft/?

[8] https://github.com/ajbrock/BigGAN-PyTorch?

[9] https://github.com/NVlabs/stylegan?

[10] https://github.com/taki0112/UGATIT?

[11] https://www.jiqizhixin.com/articles/19030401?

[12] https://github.com/google-research/bert?

[13] https://ai.facebook.com/blog/roberta-an-optimized-method-for-pretraining-self-supervised-nlp-systems/?

[14] https://github.com/microsoft/unilm?

[15] https://arxiv.org/abs/1910.13461?

[16] https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html?

[17]?https://www.cs.princeton.edu/courses/archive/fall11/cos597C/lectures/variational-inference-i.pdf?

[18] https://www.microsoft.com/en-us/research/blog/less-pain-more-gain-a-simple-method-for-vae-training-with-less-of-that-kl-vanishing-agony/?

[19] https://arxiv.org/abs/1909.00868?

[20] https://github.com/jxhe/vae-lagging-encoder?

[21] https://arxiv.org/abs/1509.00519?

[22] https://arxiv.org/abs/1702.08398?

[23] https://arxiv.org/abs/1811.11083?

[24] https://github.com/batmanlab/twin-auxiliary-classifiers-gan?

[25] https://arxiv.org/abs/1710.10196?

[26] http://ronghanghu.com/speaker_follower/?

[27]?https://github.com/peteanderson80/Matterport3DSimulator?

[28] https://deepart.io/?

[29] https://arxiv.org/abs/2002.12328?

[30] https://github.com/google-research/electra?

[31] https://github.com/huggingface/transformers?

[32] https://deepgenerativemodels.github.io/?

[33] https://online.stanford.edu/courses/cs236-deep-generative-models?

[34] https://sites.google.com/view/berkeley-cs294-158-sp20/home?

[35]?http://stat.columbia.edu/~cunningham/teaching/GR8201/?

[36] https://cs.nyu.edu/courses/spring18/CSCI-GA.3033-022/

點擊以下標題查看更多往期內容：?

ICLR 2020：從去噪自編碼器到生成模型
萬字綜述之生成對抗網絡（GAN）
BiGAN-QP：簡單清晰的編碼生成模型
深度學習中的Lipschitz約束：泛化與生成模型
全新視角：用變分推斷統一理解生成模型
Wasserstein距離在生成模型中的應用

????

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

與50位技術專家面對面20年技術見證，附贈技術全景圖

總結

以上是生活随笔為你收集整理的大规模计算时代：深度生成模型何去何从的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： WEY坦克300后备箱容积多少升？
下一篇：小变动、大影响：苹果 iOS 18 细化

国产亚洲精品久久久久动-影视先锋中文字幕-av网站在线观看一区-亚洲视频 在线观看-久久亚洲不卡-欧美精品一区在线观看-欧美乱淫视频-欧美熟妇另类久久久久久不卡-粉嫩av一区二区三区四区五区-日韩欧美操

编程问答

大规模计算时代：深度生成模型何去何从

總結

国产亚洲精品久久久久动-影视先锋中文字幕-av网站在线观看一区-亚洲视频在线观看-久久亚洲不卡-欧美精品一区在线观看-欧美乱淫视频-欧美熟妇另类久久久久久不卡-粉嫩av一区二区三区四区五区-日韩欧美操