风格迁移篇---SAnet:风格注意网络下的任意风格转换
這里寫目錄標題
- Abstract
 - 1. Introduction
 - 2. Related Work
 - 3. Method
 - 3.1. Network Architecture
 - 3.2. SANet for Style Feature Embedding
 - 3.3. Full System
 
- 4. Experimental Results
 - 4.1. Experimental Settings
 - 4.2. Comparison with Prior Work
 - 4.3. Ablation Studies
 - 4.4. Runtime Controls
 
- 5. Conclusions
 - Acknowledgments.
 - References
 
論文地址: http://arxiv.org/abs/1812.02342
代碼地址: https://github.com/GlebSBrykin/SANET
Abstract
任意風格轉(zhuǎn)換旨在合成具有圖像風格的內(nèi)容圖像,以創(chuàng)建以前從未見過的第三個圖像。最近的任意風格轉(zhuǎn)換算法發(fā)現(xiàn)平衡內(nèi)容結(jié)構(gòu)和風格模式很有挑戰(zhàn)性。此外,由于基于補丁的機制,很難同時維護全局和局部樣式的模式。在本文中,我們介紹了一種新的風格注意網(wǎng)絡(SANet),該網(wǎng)絡根據(jù)內(nèi)容圖像的語義空間分布高效靈活地集成局部風格模式。新的身份丟失函數(shù)和多級特征嵌入使我們的SANet和解碼器能夠在豐富樣式模式的同時盡可能保留*指示等貢獻內(nèi)容結(jié)構(gòu)。實驗結(jié)果表明,我們的算法實時合成的樣式化圖像的質(zhì)量高于最先進的算法生成的圖像。
1. Introduction
藝術(shù)風格轉(zhuǎn)移是一種通過在內(nèi)容圖像上均勻地從給定風格圖像合成全局和局部風格圖案,同時保持其原始結(jié)構(gòu)來創(chuàng)建藝術(shù)的技術(shù)。最近,Gatys等人[5]的開創(chuàng)性工作表明,從預訓練的深度神經(jīng)網(wǎng)絡中提取的特征之間的相關(guān)性可以很好地捕捉風格模式。Gatys等人[5]的方法是1 arXiv:1812.02342v5[cs.CV]2019年5月23日,足夠靈活,可以組合任意圖像的內(nèi)容和樣式,但由于迭代優(yōu)化過程,速度太慢。
為了降低這一過程的計算成本,已經(jīng)做出了重大努力。基于前饋網(wǎng)絡,開發(fā)了幾種方法[1、8、12、22、3、14、19、26、29]。前饋方法可以有效地合成樣式化圖像,但僅限于固定數(shù)量的樣式或提供的視覺質(zhì)量不足。
對于任意樣式轉(zhuǎn)換,一些方法[13、7、20]整體調(diào)整內(nèi)容特征,以匹配樣式特征的二階統(tǒng)計量。AdaIN[7]簡單地調(diào)整內(nèi)容圖像的均值和方差,以匹配樣式圖像的均值和方差。雖然AdaIN通過傳輸特征統(tǒng)計信息有效地結(jié)合了內(nèi)容圖像的結(jié)構(gòu)和樣式模式,但由于該方法過于簡化,其輸出質(zhì)量受到影響。WCT[13]使用協(xié)方差而不是方差,通過白化和著色過程將內(nèi)容特征轉(zhuǎn)換為樣式特征空間。通過在預先訓練的編碼器-解碼器模塊中嵌入這些風格化特征,無風格解碼器合成了風格化圖像。然而,如果特征具有大量維度,則WCT將相應地需要計算昂貴的操作。Avatar Net[20]是一個基于補丁的樣式裝飾器模塊,它將內(nèi)容特征映射為樣式模式的特征,同時保持內(nèi)容結(jié)構(gòu)。阿凡達網(wǎng)不僅考慮整體風格分布,還考慮局部風格模式。然而,盡管做出了寶貴的努力,這些方法仍然不能反映風格圖像的細節(jié)紋理,扭曲內(nèi)容結(jié)構(gòu),或者無法平衡局部和全局風格模式。
在這項工作中,我們提出了一種新的任意風格傳輸算法,該算法實時合成高質(zhì)量的風格化圖像,同時保留內(nèi)容結(jié)構(gòu)。這是通過一種新型的注意力網(wǎng)絡(SANet)和一種新的身份丟失函數(shù)實現(xiàn)的。對于任意風格轉(zhuǎn)換,我們的前饋網(wǎng)絡由sanet和解碼器組成,通過根據(jù)內(nèi)容特征在空間上重新排列風格特征來學習內(nèi)容特征和風格特征之間的語義相關(guān)性。
我們提出的SANet與化身網(wǎng)絡的風格特征裝飾器密切相關(guān)[20]。然而,有兩個主要區(qū)別:該模型使用1)學習的相似核而不是固定的相似核;2)軟注意而不是硬注意。換言之,為了風格裝飾的目的,我們將自注意力機制更改為可學習的基于軟注意力的網(wǎng)絡。我們的SANet使用可學習的相似性核將內(nèi)容特征圖表示為與其每個位置相似的樣式特征的加權(quán)和。使用訓練過程中的身份丟失,輸入相同的圖像對,并訓練我們的模型以恢復相同的結(jié)果。在推理時,用樣式圖像替換其中一個輸入圖像,并基于樣式特征盡可能多地恢復內(nèi)容圖像。與內(nèi)容-風格的權(quán)衡不同,身份丟失有助于保持內(nèi)容結(jié)構(gòu)而不損失風格的豐富性,因為它有助于根據(jù)風格特征恢復內(nèi)容。我們工作的主要貢獻如下:
- 我們提出了一種新的SANet,可以靈活地將語義最近的樣式特征與內(nèi)容特征相匹配。
 - 我們提出了一種由SANets和解碼器組成的前饋網(wǎng)絡的學習方法,該方法使用傳統(tǒng)的重建損失和新的身份損失進行優(yōu)化。
 - 我們的實驗表明,我們的方法在合成高質(zhì)量的樣式化圖像時效率很高(約為每秒18-24幀,512像素),同時平衡全局和局部樣式模式并保留內(nèi)容結(jié)構(gòu)。
 
【圖2:培訓流程概述。(a) 固定VGG編碼器編碼內(nèi)容和風格的圖像。分別來自Relu 4 1和Relu 5 1特征的兩個SANets地圖特征。解碼器將組合的SANet輸出特征轉(zhuǎn)換為IC(等式4)。固定VGG編碼器用于計算Lc(等式7)和Ls(等式8)。(b) 身份丟失指數(shù)(等式9)量化了Ic和Icc之間或Is和Iss之間的差異,其中Ic(Is)是原始內(nèi)容(樣式)圖像,Icc(Iss)是從圖像對(內(nèi)容或樣式)合成的輸出圖像】
2. Related Work
任意樣式轉(zhuǎn)換。任意風格轉(zhuǎn)換的最終目標是同時實現(xiàn)并保持泛化、質(zhì)量和效率。盡管最近取得了一些進展,但現(xiàn)有方法[5、4、1、8、12、22、3、6、10、11、23、24、28、18]在泛化、質(zhì)量和效率之間進行了權(quán)衡。最近,人們提出了幾種方法[13、20、2、7]來實現(xiàn)任意樣式的轉(zhuǎn)換。AdaIN算法通過傳輸全局特征統(tǒng)計信息,簡單地調(diào)整內(nèi)容圖像的均值和方差,以匹配樣式圖像的均值和方差。WCT執(zhí)行一對特征變換(白化和著色),用于在預訓練的編碼器-解碼器模塊中嵌入特征。Avatar Net引入了基于補丁的特征裝飾器,該裝飾器將內(nèi)容特征轉(zhuǎn)換為語義最近的風格特征,同時最小化其整體特征分布之間的差異。在許多情況下,我們觀察到WCT和AvatarNet的結(jié)果不能充分表示細節(jié)紋理或保持內(nèi)容結(jié)構(gòu)。我們推測,WCT和Avatar Net可能無法合成詳細的紋理樣式,因為它們預先訓練了通用編碼器-解碼器網(wǎng)絡,這些網(wǎng)絡是從樣式特征差異很大的通用圖像(如MS-COCO數(shù)據(jù)集[15])中學習的。因此,這些方法考慮將樣式特征映射到特征空間中的內(nèi)容特征,但無法控制樣式的全局統(tǒng)計信息或內(nèi)容結(jié)構(gòu)。雖然化身網(wǎng)絡可以通過基于補丁的樣式裝飾器獲得局部樣式模式,但樣式圖像中樣式模式的規(guī)模取決于補丁大小。因此,不能同時考慮全局和局部風格模式。相比之下,AdaIN可以很好地轉(zhuǎn)換紋理和顏色分布,但不能很好地表示局部風格的圖案。在這種方法中,存在另一種規(guī)模適應的內(nèi)容和風格損失的組合,在內(nèi)容和風格之間進行權(quán)衡。在本文中,我們嘗試使用SANets和提出的身份丟失來解決這些問題。這樣,所提出的風格轉(zhuǎn)換網(wǎng)絡可以表示全局和局部風格模式,并在不損失風格豐富性的情況下保持內(nèi)容結(jié)構(gòu)。
自我注意力機制。我們的風格注意力模塊與最近用于圖像生成和機器翻譯的自注意力方法[25,30]有關(guān)。這些模型通過關(guān)注所有位置并在嵌入空間中取其加權(quán)平均值來計算序列或圖像中某個位置的響應。該算法通過稍微修改自注意力機制來學習內(nèi)容特征和風格特征之間的映射。
3. Method
本文提出的風格傳遞網(wǎng)絡由編碼器-解碼器模塊和風格注意模塊組成,如圖2所示。所提出的前饋網(wǎng)絡有效地生成高質(zhì)量的風格化圖像,適當?shù)胤从橙趾途植匡L格模式。我們新的身份丟失功能有助于保持內(nèi)容的詳細結(jié)構(gòu),同時充分反映風格
3.1. Network Architecture
我們的風格傳遞網(wǎng)絡以內(nèi)容圖像Ic和任意風格圖像為輸入,并使用前者的語義結(jié)構(gòu)和后者的特征合成風格化圖像Ic。在這項工作中,預訓練VGG-19網(wǎng)絡[21]被用作編碼器,對稱解碼器和兩個SANet被聯(lián)合訓練用于任意樣式的傳輸。我們的解碼器遵循[7]的設(shè)置。
為了充分結(jié)合全局樣式模式和局部樣式模式,我們將從不同層(Relu 4 1和Relu 5 1)編碼的VGG特征映射作為輸入,并結(jié)合兩個輸出特征映射,從而集成了兩個SANet。從內(nèi)容圖像Ic和樣式圖像Is對中,我們首先在編碼器的特定層(例如,Relu 4 1)提取其各自的VGG特征映射Fc=E(Ic)和Fs=E(Is)。
在對內(nèi)容和樣式圖像進行編碼后,我們將兩個特征映射提供給SANet模塊,該模塊映射內(nèi)容特征映射Fc和樣式特征映射Fs之間的對應關(guān)系,生成以下輸出特征映射:
 
 將1×1卷積應用于Fcs并按如下方式對兩個矩陣進行元素求和后,我們得到Fcsc:
 
 其中“+”表示按元素求和。我們將來自兩個SANet的兩個輸出特征映射合并為:
 
 其中,F r 4 1csc和F r 5 1csc是從兩個SANet獲得的輸出特征圖,conv3×3表示用于組合兩個特征圖的3×3卷積,F r 5 1csc在上采樣后添加到F r 4 1csc。
 
然后,通過將F mcsc饋送到解碼器中來合成樣式化的輸出圖像ic,如下所示:
 
3.2. SANet for Style Feature Embedding
圖3顯示了使用SANet模塊嵌入樣式特征。編碼器的內(nèi)容特征映射Fc和樣式特征映射Fs被歸一化,然后轉(zhuǎn)換為兩個特征空間f和g,以計算f ic和f J之間的注意力,如下所示:
 
 其中,f(Fc)=Wf Fc,g(Fs)=WgFs,h(Fs)=WhFs。此外,F表示F的均值-方差通道歸一化版本。響應通過系數(shù)C(F)=P進行歸一化?j exp(f(f ic)T g(f js))。這里,i是輸出位置的索引,j是枚舉所有可能位置的索引。在上述公式中,Wf、Wg和Wh是學習的權(quán)重矩陣,如[30]中所示,它們被實現(xiàn)為1×1卷積。
我們的SANet的網(wǎng)絡結(jié)構(gòu)類似于現(xiàn)有的非局部塊結(jié)構(gòu)[27],但輸入數(shù)據(jù)的數(shù)量不同(SANet的輸入由Fc和Fs組成)。SANet模塊可以通過學習映射內(nèi)容和樣式特征圖之間的關(guān)系(例如親和力),在內(nèi)容特征圖的每個位置適當嵌入局部樣式模式。
3.3. Full System
如圖2所示,我們使用編碼器(預訓練VGG-19[21])來計算用于訓練SANet和解碼器的損失函數(shù):
 
 其中,內(nèi)容、風格和身份損失的組成部分分別為Lc、Ls和Lidentity,λc和λs是不同損失的權(quán)重。
 與[7]類似,內(nèi)容損失是均值-方差通道方向歸一化目標特征F r 4 1c和F r 5 1c與輸出圖像VGG特征E(Ics)r 4 1和E(Ics)r 5 1的均值-方差通道方向歸一化特征之間的歐氏距離,如下所示:
 
樣式損失定義如下:
 
 其中,每個φ表示編碼器中用于計算樣式損失的層的特征圖。我們使用等權(quán)重的Relu 1 1、Relu 2 1、Relu 3 1、Relu 4 1和Relu 5 1層。我們應用了Gram矩陣損失[5]和AdaIN風格損失[7],但結(jié)果表明AdaIN風格損失更令人滿意。
 
 【圖4:結(jié)果詳細信息。為了更好地可視化,在最下面一行中由邊界框標記的區(qū)域在最上面一行中被放大。】
 【圖5:五種風格轉(zhuǎn)換算法的用戶偏好結(jié)果】
當Wf、Wg和Wh固定為標識矩陣時,內(nèi)容特征圖中的每個位置都可以轉(zhuǎn)換為樣式特征圖中語義最近的特征。在這種情況下,系統(tǒng)無法解析足夠的樣式特征。在SANet中,雖然Wf、Wg和Wh是可學習矩陣,但我們的風格轉(zhuǎn)換模型可以通過只考慮風格損失Ls的全局統(tǒng)計信息來訓練。
為了考慮內(nèi)容特征和風格特征之間的全局統(tǒng)計和語義局部映射,我們定義了一個新的身份丟失函數(shù),如下所示:
 其中,Icc(或Iss)表示從兩個相同內(nèi)容(或樣式)圖像合成的輸出圖像,每個φi表示編碼器中的一層,λidentity1和λidentity2是身份損失權(quán)重。在我們的實驗中,加權(quán)參數(shù)簡單地設(shè)置為λc=1、λs=3、λidentity1=1和λidentity2=50。
內(nèi)容和風格損失控制著內(nèi)容圖像結(jié)構(gòu)和風格模式之間的權(quán)衡。與其他兩種損失不同,身份損失是從相同的輸入圖像計算的,樣式特征沒有差異。因此,身份丟失集中保持內(nèi)容圖像的結(jié)構(gòu),而不是更改樣式統(tǒng)計。因此,身份丟失使得能夠同時保持內(nèi)容圖像的結(jié)構(gòu)和參考圖像的風格特征
4. Experimental Results
圖2顯示了基于擬議SANets的我們風格的傳輸網(wǎng)絡的概述。演示站點將通過https://dypark86.github.io/SANET/.
4.1. Experimental Settings
我們使用MS-COCO[15]對內(nèi)容圖像進行訓練,使用WikiArt[17]對風格圖像進行訓練。這兩個數(shù)據(jù)集包含大約80000個訓練圖像。我們使用了Adam優(yōu)化器[9],學習率為0.0001,批量大小為五個內(nèi)容風格的圖像對。在訓練過程中,我們首先將兩幅圖像的較小維度重新縮放到512,同時保持縱橫比,然后隨機裁剪256×256像素的區(qū)域。在測試階段,我們的網(wǎng)絡可以處理任何輸入大小,因為它是完全卷積的。
4.2. Comparison with Prior Work
為了評估我們的方法,我們將其與三種類型的任意樣式變換方法進行了比較:Gatys等人[5]提出的迭代優(yōu)化方法,兩種基于特征變換的方法(WCT[13]和AdaIN[7]),以及基于面片的方法Avatar Net[20]。
定性示例。在圖11中,我們展示了通過最先進的方法合成的風格轉(zhuǎn)換結(jié)果的示例。補充材料中提供了其他結(jié)果。注意,在我們的模型訓練期間,沒有觀察到任何測試風格的圖像。
基于優(yōu)化的方法[5]允許任意樣式轉(zhuǎn)換,但可能會遇到錯誤的局部最小值(例如,圖11中的第2行和第4行)。AdaIN[7]簡單地調(diào)整內(nèi)容特征的均值和方差來合成樣式化圖像。然而,由于內(nèi)容和樣式之間的權(quán)衡,其結(jié)果不太吸引人,并且通常保留內(nèi)容的一些顏色分布(例如,圖11中的第1、2和8行)。此外,AdaIN[7]和WCT[13]有時都會產(chǎn)生扭曲的局部樣式模式,這是因為整體調(diào)整了內(nèi)容特征,以匹配樣式特征的二階統(tǒng)計量,如圖11所示。盡管化身網(wǎng)絡[20]根據(jù)內(nèi)容圖像的語義空間分布用樣式模式裝飾圖像,并應用多尺度樣式轉(zhuǎn)換,但由于其依賴于面片大小,它通常不能同時表示局部和全局樣式模式。此外,在大多數(shù)情況下,它不能保持內(nèi)容結(jié)構(gòu)(圖11中的第4列)。相反,在大多數(shù)示例中,我們的方法可以解析不同的樣式模式,例如全局顏色分布、紋理和局部樣式模式,同時保持內(nèi)容的結(jié)構(gòu),如圖11所示。
與其他算法不同,我們的可學習SANet可以靈活地解析足夠級別的樣式特征,而無需最大程度地對齊內(nèi)容和樣式特征,而無需考慮較大的域差距(圖11中的第1行和第6行)。該SANet在語義上區(qū)分了內(nèi)容結(jié)構(gòu),并將相似的風格模式轉(zhuǎn)移到具有5個相同語義的區(qū)域。我們的方法為每種類型的語義內(nèi)容轉(zhuǎn)換不同的風格。在圖11(第3行)中,我們的樣式化圖像中的天空和建筑物使用不同的樣式模式進行樣式化,而其他方法的結(jié)果在天空和建筑物之間具有模糊的樣式邊界。
我們還在圖4中提供了結(jié)果的詳細信息。我們的結(jié)果展示了多尺度風格模式(例如,顏色分布、灌木筆劃以及風格圖像中粗糙紋理的白色和紅色模式)。Avatar Net和WCT會扭曲筆刷筆劃,輸出模糊的頭發(fā)紋理,并且不會保留人臉的外觀。AdaIN甚至不能保持顏色分布。
用戶研究。我們使用了14幅內(nèi)容圖像和70幅風格圖像,總共合成了980幅圖像。我們?yōu)槊總€受試者隨機選擇了30種內(nèi)容和風格組合,并以隨機順序向他們展示了通過五種比較方法獲得的風格化圖像。然后,我們要求受試者指出他/她最喜歡的每種風格的結(jié)果。我們收集了80位用戶的2400張選票,并在圖5中顯示了每種方法的投票百分比。結(jié)果表明,與其他方法相比,我們的方法得到的程式化結(jié)果更受歡迎。
效率表1顯示了該方法和其他方法在兩個圖像尺度(256和512像素)下的運行時性能。我們測量了運行時性能,包括樣式編碼的時間?;趦?yōu)化的方法[5]由于其迭代優(yōu)化過程,計算成本不現(xiàn)實。相比之下,我們的多尺度模型(Relu 4 1和Relu 5 1)算法對于256和512像素圖像分別以59 fps和18 fps的速度運行,而單尺度(僅Relu 4 1)算法對于256和512像素圖像分別以83 fps和24 fps的速度運行。因此,我們的方法可以實時處理風格轉(zhuǎn)換。我們的模型比基于矩陣計算的方法(WCT[13]和Avatar Net[20])快7-20倍。
4.3. Ablation Studies
損失分析。在本節(jié)中,我們展示了內(nèi)容風格喪失和身份喪失的影響。圖6(a)顯示了通過將λidentity1、λidentity2和λs分別固定在0、0和5,同時將λc從1增加到50而獲得的結(jié)果。圖6(b)顯示了通過將λc和λs分別固定在0和5,并分別將λidentity1和λidentity2從1增加到100和從50增加到5000而獲得的結(jié)果。在沒有身份丟失的情況下,如果我們增加內(nèi)容丟失的權(quán)重,內(nèi)容結(jié)構(gòu)會得到保留,但由于內(nèi)容丟失和樣式丟失之間的權(quán)衡,樣式模式的特征會消失。相反,在不丟失內(nèi)容的情況下增加身份丟失的權(quán)重,可以在保持樣式模式的同時盡可能地保留內(nèi)容結(jié)構(gòu)。然而,內(nèi)容結(jié)構(gòu)的變化的失真是不可避免的。因此,我們結(jié)合了內(nèi)容風格損失和身份損失來維護內(nèi)容結(jié)構(gòu),同時豐富風格模式。
 
 【圖6:內(nèi)容風格損失與身份損失。(a) 通過將λidentity1、λidentity2和λs分別固定在0、0和5,并將λc從1增加到50獲得的結(jié)果。(b) 通過將λc和λs分別固定在0和5,并將λidentity1和λidentity2分別從1增加到100和從50增加到5000獲得的結(jié)果?!?/p> 
 【圖7:多級特征嵌入。通過在多個層次上嵌入特征,我們可以豐富樣式化圖像的局部和全局模式?!?/p> 
多級特征嵌入。圖7分別顯示了從Relu 4 1和Relu 5 1獲得的兩個樣式化輸出。當僅使用Relu 4 1進行樣式轉(zhuǎn)換時,可以很好地保持樣式特征和內(nèi)容結(jié)構(gòu)的全局統(tǒng)計信息。然而,當?shù)仫L格的圖案并不常見。相比之下,Relu 5 1有助于添加局部風格模式,例如圓形模式,因為感受野更寬。然而,內(nèi)容結(jié)構(gòu)被扭曲,筆觸等紋理消失。在我們的工作中,為了豐富樣式模式,我們將從不同(Relu 4 1和Relu 5 1)層編碼的VGG特征映射作為輸入,并結(jié)合兩個輸出特征映射,集成了兩個SANet
4.4. Runtime Controls
在本節(jié)中,我們通過幾個應用展示了我們方法的靈活性。
 
 【圖8:運行時的內(nèi)容-風格權(quán)衡。我們的算法允許在運行時通過在特征映射F mccc和F mcsc之間插值來調(diào)整這種權(quán)衡?!?br /> 
 [圖9:具有四種不同樣式的樣式插值。]
 
 [圖10:空間控制示例。左:內(nèi)容圖像。中間:樣式圖像和遮罩。右:來自兩個不同樣式圖像的樣式化圖像。]
內(nèi)容-風格權(quán)衡。可以在訓練期間通過調(diào)整等式6中的樣式權(quán)重λs來控制樣式化程度,或者在測試期間通過在饋送到解碼器的特征映射之間插值來控制樣式化程度。對于運行時控制,我們調(diào)整了mcsc的樣式化特性← ? αF mcsc+(1? α) F mccc和?α ∈ [0, 1]. 通過將兩幅內(nèi)容圖像作為模型的輸入,獲得了映射F-mccc。當α=0時,網(wǎng)絡嘗試重建內(nèi)容圖像,當α=1時,嘗試合成最具風格的圖像(如圖8所示)。
樣式插值。為了在多個樣式圖像之間插值,可以將來自不同樣式的mcsc的特征映射的凸組合饋入解碼器(如圖9所示)。
空間控制。圖10顯示了在空間上控制樣式化的示例。此外,還需要一組掩碼M(圖10第3列)作為輸入,以映射內(nèi)容區(qū)域和樣式之間的空間對應關(guān)系。我們可以通過用M J F mcsc替換F mcsc在每個空間區(qū)域中分配不同的樣式,其中J是一個簡單的maskout操作。
 
5. Conclusions
在這項工作中,我們提出了一種新的任意風格轉(zhuǎn)換算法,該算法由風格注意網(wǎng)絡和解碼器組成。我們的算法是有效的。與[20]中基于補丁的樣式裝飾器不同,我們提出的SANet可以通過使用傳統(tǒng)的樣式重建損失和身份損失進行學習來靈活地裝飾樣式特征。此外,提出的身份丟失有助于SANet保持內(nèi)容結(jié)構(gòu),豐富局部和全局風格模式。實驗結(jié)果表明,該方法合成的圖像優(yōu)于其他最先進的任意樣式傳輸算法。
Acknowledgments.
致謝。本研究由文化、體育和旅游部(MCST)和韓國創(chuàng)意內(nèi)容署(KOCCA)在2019年文化技術(shù)(CT)研發(fā)計劃中提供支持
References
[1] D. Chen, L. Y uan, J. Liao, N. Y u, and G. Hua. StyleBank:
 An explicit representation for neural image style transfer. In
 Proc. CVPR, volume 1, page 4, 2017.
 [2] T. Q. Chen and M. Schmidt. Fast patch-based style transfer
 of arbitrary style. arXiv preprint arXiv:1612.04337, 2016.
 [3] V . Dumoulin, J. Shlens, and M. Kudlur. A learned represen-
 tation for artistic style. In Proc. ICLR, 2017.
 [4] L. Gatys, A. S. Ecker, and M. Bethge. Texture synthesis
 using convolutional neural networks. In Advances in Neural
 Information Processing Systems, pages 262–270, 2015.
 [5] L. A. Gatys, A. S. Ecker, and M. Bethge. Image style transfer
 using convolutional neural networks. In Proc. CVPR, pages
 2414–2423, 2016.
 [6] L. A. Gatys, A. S. Ecker, M. Bethge, A. Hertzmann, and
 E. Shechtman. Controlling perceptual factors in neural style
 transfer. In Proc. CVPR, 2017.
 [7] X. Huang and S. J. Belongie. Arbitrary style transfer in real-
 time with adaptive instance normalization. In Proc. ICCV,
 pages 1510–1519, 2017.
 [8] J. Johnson, A. Alahi, and L. Fei-Fei. Perceptual losses for
 real-time style transfer and super-resolution. In Proc. ECCV,
 pages 694–711. Springer, 2016.
 [9] D. P . Kingma and J. Ba. Adam: A method for stochastic
 optimization. arXiv preprint arXiv:1412.6980, 2014.
 [10] C. Li and M. Wand. Combining Markov random fields and
 convolutional neural networks for image synthesis. In Proc.
 CVPR, pages 2479–2486, 2016.
 [11] C. Li and M. Wand. Precomputed real-time texture synthesis
 with Markovian generative adversarial networks. In Proc.
 ECCV, pages 702–716. Springer, 2016.
 [12] Y . Li, C. Fang, J. Yang, Z. Wang, X. Lu, and M.-H. Yang.
 Diversified texture synthesis with feed-forward networks. In
 Proc. CVPR, 2017.
 [13] Y . Li, C. Fang, J. Yang, Z. Wang, X. Lu, and M.-H. Yang.
 Universal style transfer via feature transforms. In Advances
 in Neural Information Processing Systems, pages 386–396,
 2017.
 [14] Y . Li, N. Wang, J. Liu, and X. Hou. Demystifying neural
 style transfer. arXiv preprint arXiv:1701.01036, 2017.
 [15] T.-Y . Lin, M. Maire, S. Belongie, J. Hays, P . Perona, D. Ra-
 manan, P . Dollár, and C. L. Zitnick. Microsoft COCO: Com-
 mon objects in context. In Proc. ECCV, pages 740–755.
 Springer, 2014.
 [16] A. Paszke, S. Chintala, R. Collobert, K. Kavukcuoglu,
 C. Farabet, S. Bengio, I. Melvin, J. Weston, and J. Ma-
 riethoz. PyTorch: Tensors and dynamic neural net-
 works in Python with strong GPU acceleration, Available:
 https://github.com/pytorch/pytorch, May 2017.
 [17] F. Phillips and B. Mackintosh. Wiki Art Gallery, Inc.: A
 case for critical thinking. Issues in Accounting Education,
 26(3):593–608, 2011.
 [18] E. Risser, P . Wilmot, and C. Barnes. Stable and controllable
 neural texture synthesis and style transfer using histogram
 losses. arXiv preprint arXiv:1701.08893, 2017.
 [19] F. Shen, S. Yan, and G. Zeng. Meta networks for neural style
 transfer. arXiv preprint arXiv:1709.04111, 2017.
 [20] L. Sheng, Z. Lin, J. Shao, and X. Wang. Avatar-Net: Multi-
 scale zero-shot style transfer by feature decoration. In Proc.
 CVPR, pages 8242–8250, 2018.
 [21] K. Simonyan and A. Zisserman. V ery deep convolutional
 networks for large-scale image recognition. arXiv preprint
 arXiv:1409.1556, 2014.
 [22] D. Ulyanov, V . Lebedev, A. V edaldi, and V . S. Lempitsky.
 Texture networks: Feed-forward synthesis of textures and
 stylized images. In Proc. ICML, pages 1349–1357, 2016.
 [23] D. Ulyanov, A. V edaldi, and V . Lempitsky. Instance normal-
 ization: The missing ingredient for fast stylization. arXiv
 preprint arXiv:1607.08022, (2016).
 [24] D. Ulyanov, A. V edaldi, and V . S. Lempitsky. Improved
 texture networks: Maximizing quality and diversity in feed-
 forward stylization and texture synthesis. In Proc. CVPR,
 volume 1, page 3, 2017.
 [25] A. V aswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones,
 A. N. Gomez, ?. Kaiser, and I. Polosukhin. Attention is all
 you need. In Advances in Neural Information Processing
 Systems, pages 5998–6008, 2017.
 [26] H. Wang, X. Liang, H. Zhang, D.-Y . Yeung, and E. P . Xing.
 ZM-Net: Real-time zero-shot image manipulation network.
 arXiv preprint arXiv:1703.07255, 2017.
 [27] X. Wang, R. Girshick, A. Gupta, and K. He. Non-local neural
 networks. arXiv preprint arXiv:1711.07971, 2017.
 [28] X. Wang, G. Oxholm, D. Zhang, and Y .-F. Wang. Multi-
 modal transfer: A hierarchical deep convolutional neural net-
 work for fast artistic style transfer. In Proc. CVPR, volume 2,
 page 7, 2017.
 [29] H. Zhang and K. Dana. Multi-style generative network for
 real-time transfer. arXiv preprint arXiv:1703.06953, 2017.
 [30] H. Zhang, I. Goodfellow, D. Metaxas, and A. Odena. Self-
 attention generative adversarial networks. arXiv preprint
 arXiv:1805.08318, 2018.
總結(jié)
以上是生活随笔為你收集整理的风格迁移篇---SAnet:风格注意网络下的任意风格转换的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: 847. Shortest Path V
 - 下一篇: QMouseEvent 的坐标__Win