CVPR 2021 | 天津大学提出PISE:形状与纹理解耦的人体图像生成与编辑方法
?PaperWeekly 原創 ·?作者|張勁松
學校|天津大學碩士生
研究方向|計算機視覺
導讀:由單張人體圖像來生成任意視角任意姿態下的圖像,是近幾年視覺領域研究的熱點問題。現有方法無法實現靈活的圖像編輯且難以合理預測不可見信息,其根本原因是衣服形狀與風格/紋理的耦合以及空域相關信息的丟失。為了解決以上問題,該研究工作設計了形狀與風格/紋理信息的分離方案,建立了分階段分區域圖像表示模型,聯合局部與全局信息對目標圖像進行合理預測,同時使用空間感知的正則化方法保留空間信息,實現了語義引導的新姿態圖像生成與編輯,突破了形狀與紋理難以解耦的瓶頸,并賦予算法靈活可控的編輯能力。
論文鏈接:
https://arxiv.org/abs/2103.04023
項目主頁:
http://cic.tju.edu.cn/faculty/likun/projects/PISE
代碼鏈接:
https://github.com/Zhangjinso/PISE
?
人體姿態遷移簡介
簡單來說,人體姿態遷移就是給定一張人物圖像,希望生成該人物在指定姿態下的圖像。如下圖所示,最左列為給定的人物圖像,在給定不同的新姿態下,該工作模型可以生成在新姿態下該人物的圖像。
人體姿態遷移在角色動畫、視頻制作等領域都有著巨大的潛力。但由于人物圖片紋理的多樣性以及變換姿態和視點導致的自遮擋問題,人體姿態遷移系統很難得到令人滿意的結果。
以往方法?[1-4]?針對如何提升人體姿態遷移系統的性能,即對如何生成更真實的圖片進行了大量的研究。然而,人體姿態遷移系統生成人體圖像的整個過程是不可控的,只能遷移姿態,不能遷移衣服的形狀或者衣服的紋理。
PINet [5] 和 ADGAN [6] 對人體姿態遷移的可控性能進行了探索,但難以細致地控制屬性,只能大致調整生成人物圖像的穿著,不能靈活地控制其衣物樣式及紋理。這是因為在人體圖像生成的過程中,衣物的形狀以及紋理信息是耦合的。
因此,如果可以將衣物的形狀信息與紋理信息進行解耦,就可以在實現姿態遷移的同時還能靈活地編輯人體圖像。
方法思路
該工作的目標是在實現人體姿態遷移,即分離出人體姿態的基礎上,解耦形狀信息與紋理信息,從而實現靈活的人體圖像編輯。然而將形狀信息與紋理信息從耦合的圖像中分離出來是非常困難的。為此,作者引入人體語義分割圖作為中間結果,將形狀信息顯示地表示出來。
具體來說,該方法分為兩個階段:1)采用解析生成器(Parsing Generator)根據原始語義分割圖與目標姿態,生成目標圖像的語義分割圖;2)采用圖像生成器(Image Generator)將生成的語義分割圖依據輸入圖像轉換為目標圖像。
Parsing Generator
首先,作者使用 OpenPose [7] 提取出的 18 個關鍵點表示人體姿態信息,使用 CIHP PGN [8] 得到原始圖像的人體語義分割圖。Parsing Generator 負責根據目標姿態、原始姿態及其語義分割圖去生成目標人物的語義分割圖。
相比于直接對像素點的 RGB 進行預測輸出最終結果的方法,兩階段的結構在一定程度上降低了問題的難度。但對目標人物的語義分割圖進行預測仍然是一個輸入輸出不對齊的問題。
傳統卷積對輸入特征不同空間位置信息是平等對待的,因此并不適用于需要對特征進行空間變換的問題。作者在特征空間采用了門控卷積(gated convolution)來動態地賦予空間注意力,將原始姿態下的語義圖變換為目標姿態下的語義圖。
Image Generator
通過將人體語義分割圖作為中間結果,作者把形狀信息顯示地表示了出來。基于此,作者進一步將解耦形狀信息與紋理信息轉化為解耦每個語義區域的形狀信息與紋理信息。
首先,提取原始圖像的特征,并根據原始圖像的語義圖,針對每個語義區域提取和形狀無關的特征向量。在根據第一階段產生的目標語義圖生成目標圖像的過程中,對于在原圖像中可見的區域,使用原圖像對應語義區域的特征向量進行調制;對于在原圖像中不可見的區域,使用原圖像所有區域的特征向量對其進行預測。
之后,將原圖像中與形狀無關的紋理信息使用正則化的方式注入到生成的圖像特征中。然而,在提取原圖像不同語義區域特征的過程中,丟失了每個語義區域的空間信息。為了保留原圖像中每個語義區域的空間信息,作者引入了空間感知的歸一化方法。在對生成特征注入紋理信息時,使用目標圖像的 VGG 特征進行約束,使兩者盡可能處于同一域內,進而計算兩者的注意力圖。
之后,對原圖像特征進行通道歸一化,保留其空間信息,使用之前預測的注意力圖對原始圖像的空間特征進行變形,進而得到與目標圖像對齊的空間特征,并使用正則化方式進行特征調制。
整個過程在盡可能保持原圖像中的紋理信息與空間信息的基礎上,通過全局與局部聯合的分區域歸一化以及空間感知歸一化方法,解耦了形狀信息與紋理信息。
實驗結果
在人體姿態遷移任務上,作者在 DeepFashion 數據集上與六種 SOTA 方法進行了對比。在定性比較上,該方法獲得了最好的視覺結果,同時和原圖像中的人物和衣著有著更高的一致性,空間上下文信息也很好地保留了下來。
在定量比較上,該方法產生的結果誤差最小,有著最好的真實性以及與目標圖像的一致性。
此外,作者還進行了紋理遷移和語義圖編輯的實驗,證明了該方法可以對人物圖像進行靈活可控的編輯。更多的結果請參見該工作的論文與補充材料。
關于作者
張勁松 /?天津大學研三學生
主要研究方向:計算機視覺、圖像生成等
https://zhangjinso.github.io
李坤 / 天津大學副教授、博導
主要研究方向:計算機視覺、計算機圖形學、圖像處理等?
http://cic.tju.edu.cn/faculty/likun
來煜坤 / 英國卡迪夫大學副教授
主要研究方向:計算機圖形學,幾何處理,圖像處理和計算機視覺
http://users.cs.cf.ac.uk/Yukun.Lai/
楊敬鈺?/ 天津大學教授、博導
主要研究方向:計算機視覺、智能圖像/視頻處理、計算成像與三維重建
http://tju.iirlab.org/doku.php?id=people:faculty:yjy
?
?
參考文獻
[1] Zhen Zhu, Tengteng Huang, Baoguang Shi, Miao Yu, Bofei Wang, and Xiang Bai. Progressive pose attention transfer for person image generation. In Proc. IEEE Conf. Comput. Vis. Pattern Recog., pages 2342–2351, 2019.
[2] Kun Li, Jinsong Zhang, Yebin Liu, Yu-Kun Lai, Qionghai Dai. PoNA: Pose-guided Non-local Attention for Human Pose Transfer. IEEE Trans. Image Processing, vol. 29, pp. 9584-9599, 2020.
[3] Hao Tang, Song Bai, Philip HS Torr, and Nicu Sebe. Bipartite graph reasoning gans for person image generation. In Proc. Brit. Mach. Vis. Conf., 2020. 1, 6, 7
[4] Hao Tang, Song Bai, Li Zhang, Philip HS Torr, and Nicu Sebe. Xinggan for person image generation. In Proc. Eur. Conf. Comput. Vis., 2020.
[5] Jinsong Zhang,Xingzi Liu,Kun Li. Human Pose Transfer by Adaptive Hierarchical Deformation. Computer Graphics Forum, vol. 39, no. 7, pp. 325-337, 2020.
[6] Yifang Men, Yiming Mao, Yuning Jiang, Wei-Ying Ma, and Zhouhui Lian. Controllable person image synthesis with attribute-decomposed gan. In Proc. IEEE Conf. Comput. Vis. Pattern Recog., pages 5083–5092, 2020.
[7] Zhe Cao, Tomas Simon, Shih-En Wei, and Yaser Sheikh. Realtime multi-person 2D pose estimation using part affinity fields. In Proc. IEEE Conf. Comput. Vis. Pattern Recog., 2017.
[8] Ke Gong, Xiaodan Liang, Yicheng Li, Yimin Chen, Ming Yang, and Liang Lin. Instance-level human parsing via part grouping network. In Proc. Eur. Conf. Comput. Vis., 2018.
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的CVPR 2021 | 天津大学提出PISE:形状与纹理解耦的人体图像生成与编辑方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 换行标怎么去掉(换行符怎么去掉)
- 下一篇: 推荐3个C++系统项目!初级开发者必学!