cvpr 深度估计_CVPR再现黑科技!你还在相信“眼见为实”?
經常聽到有人說,我除了自己的眼睛,什么也不信。
自從09年阿凡達(Avatar)電影上映以來,3D渲染、虛擬現實的逼真度總是讓人嘆為觀止。
而今,10年過去,最近計算機視覺領域頂級會議CVPR上一組研究人員提出一款神經阿凡達模型(Neural Avatars),充分向我們證明:
當魔幻現實照進生活日常,AI黑科技讓你不再相信“眼見為實”。
圖片來源:《Avatar》劇照
本屆CVPR黑科技之一:造動態表情包
上周的CVPR會議上,來自三星AI中心和莫斯科Skolkovo研究所的研發團隊就用實驗結果告訴我們:你眼所見,未必都是真的。
該團隊先是提出了一個能讓JPG變動圖的AI系統,研究人員稱其為“Few-shot”模型。
“Few-shot”模型
通過該模型,你只需要少量甚至一張靜態圖片,就可以生成表情豐富的動態表情包。讓歷史人物“活”起來,甚至變得像話癆一樣絮絮叨叨,都是so easy~
跟你講相對論原理的愛因斯坦、除了微笑還能朝你眨眼的蒙娜麗莎,甚至還有媚眼如絲的瑪麗蓮夢露。
這些都將不再只是存在于霍格沃茨魔法學院的魔幻場景。
盡管這項技術對于高分辨率的圖片還是有一些處理瑕疵,但在低分辨率動圖上,幾乎可以以假亂真。
就在這篇論文發布的第二天,該團隊成員又緊接著發布了第二項黑科技,這下不僅你的表情包,就連你的整個身體都可能是“假”的。
本屆CVPR黑科技之二:不止可以造臉,全身也行
比方說,給你一張全身照,通常的技術方案生成的人體渲染可能只是固定的攝像角度和有限的身體姿勢。這樣造出來的人像,就很假。
然而三星提出的這個新的神經渲染模型,可以在有限的攝像頭視角和數據集基礎上,泛化出多角度的圖像視角和豐富的人體姿態。
團隊成員通過建立人體姿態神經網絡渲染模型來訓練單個人的身體姿態數據,從而獲得原輸入姿勢的新視角和新姿態。
通過將經典的計算機圖形(Computer Graphics)方法與深度神經網絡進行結合,從而估計模型表面的2D紋理映射。其研究結果表明,與直接從圖像到圖像的轉化(Image-to-Image translation)方法相比,保留個性化的紋理映射可以實現更好的泛化。
“Textured Neural Avatars”模型基于對關節點的位置提取從而實現姿態估計
對于圖像到圖像的風格轉換問題,一般都是先通過訓練來學習輸入圖片的風格,然后將其“學”來的特征映射到輸出圖片中,讓輸出圖片和輸入圖片盡可能保證風格一致。
但由于風格一致的可配對訓練圖片實在是少見,很多研究人員不得不另辟蹊徑。包括模型的泛化問題也必須給予考慮。
事實上,目前很多Image-to-Image translation模型在圖片的紋理、顏色的圖片風格轉換任務中的表現已經相當優秀,比如把馬變成斑馬,或者把橘子變成蘋果,但要是想把貓變成狗就有點困難了。
這也是為什么咱們要反復強調泛化能力的原因所在。一個模型真正強大的地方在于其可以通用,也就是我們常說的良好的泛化能力。
學習圖像紋理特征的重要性:顯著增強圖像細節(左:未經紋理特征學習;右:經過紋理特征學習后)
目前的一些模型雖然可以改變人的面部表情或是修飾人的身體姿態,但真實性和模型的變化量都非常有限。本文中的該模型不僅可以通過視頻進行訓練,還可以從表面幾何或是運動建模中分離紋理,因此可以處理更復雜的任務(比如多視角的全身視圖)以及生成更逼真的圖像渲染。
咱們具體來看看這個被稱為神經阿凡達的“Textured Neural Avatars”模型
“Textured Neural Avatars”模型
不難看出,模型輸入的是一組身體關節的位置點,通過一個全卷積網絡(圖中的Generator)來生成身體部位坐標和身體部位分配的映射堆棧。然后使用這些堆棧在坐標堆棧指定的位置處對身體紋理進行采樣映射,并使用身體部位分配的堆棧所指定的權重來生成RGB圖像。
在學習過程中,將圖像掩膜和RGB圖像與真實圖像(Ground truth)進行比較,并通過采樣操作將產生的損失反向傳播到全卷積網絡及紋理上來更新權重。
對Youtube上的一段視頻的人體渲染效果
簡單來說,就是只要給系統輸入一個姿態骨架(Bone)圖片,你就可以生成真人JPG彩圖,還是帶動作的全身360度無死角圖。
科幻大片里抬起手腕就能彈出真人影像的場景,指日可待。
黑科技背后:須警惕,但不必恐慌
事實上,除了三星,目前全世界各地有多家公司和研究中心都在研發此類黑科技,其中不乏有來自德國慕尼黑工業大學、斯坦福大學的團隊研發的曾一度飽受爭議的“換頭”AI:HeadOn。
“換頭”黑科技:HeadOn
還有德國紐倫堡大學實驗室研發的讓普京跟你對口型的臉部追蹤AI:Face2Face。
“對口型”AI:Face2Face
也包括日本用來自動生成身體和動作的服裝廣告界新寵:AI Model。
日本服裝廣告界新寵:AI模特
甚至還有英偉達公司用來一鍵改變時間和天氣的換景AI。
英偉達換景AI(左:真實白天場景;右:處理后秒變夜景)
擁有了這些黑科技,未來通過動圖or視頻去判斷事件真偽的可信度也將大打折扣,尤其對于公眾人物來說,可能不僅僅是被“換臉”,連各種囧事和花邊新聞都可以被生造了。
對于普通人來說,萬一不小心得罪了誰,被捏造一些不雅的動圖or視頻上傳到社交平臺,甚至是被某些不法分子用來要挾勒索家人,那就很恐怖了。
技術本身無分善惡,但是技術的使用者有好有壞。
未來技術能夠發展到什么程度我們無法想象,我們必須對技術可能會產生的惡果予以警惕。
圖片來源:pixabay
但事實上,就目前而言大可不必過于擔憂。誠如三星AI中心所言,其模型的泛化能力可能相較于其他方法來說表現略佳,但還是存在諸多限制。
比如,當一個身材比例與訓練數據集有顯著差別的人出現時,模型就表現堪憂了。當光照顯著影響表面顏色時,渲染效果也會大打折扣。
另外,在手和面部姿態估計錯誤的情況下,渲染出的人像就會顯得極其不自然。
就算未來人像渲染會更加逼真,但總歸來說,人的個性和特質是很難被模仿和復制的。
想象一下,你平時笑的時候都習慣了露十八顆牙,動圖里的你笑起來只露八顆是不是一秒就露餡了?
(手動滑稽)
圖片來源:SOOGIF網站
留言 點贊 關注
我們一起分享AI學習與發展的干貨
歡迎關注全平臺AI垂類自媒體 “讀芯術”
總結
以上是生活随笔為你收集整理的cvpr 深度估计_CVPR再现黑科技!你还在相信“眼见为实”?的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 什么是 css,关于css是什么
- 下一篇: arduino智能浇花系统_创新成果 |
