目标形体形状轮廓重建:ICCV2019论文解析
目標(biāo)形體形狀輪廓重建:ICCV2019論文解析
Shape Reconstruction using Differentiable Projections and Deep Priors
論文鏈接:
http://openaccess.thecvf.com/content_ICCV_2019/papers/Gadelha_Shape_Reconstruction_Using_Differentiable_Projections_and_Deep_Priors_ICCV_2019_paper.pdf
摘要
研究了在存在視點(diǎn)不確定性的情況下,由含噪和不完全投影重建形狀的問(wèn)題。將該問(wèn)題轉(zhuǎn)化為對(duì)由投影算子和先驗(yàn)算子獲得的給定形狀測(cè)量值的優(yōu)化。本文提出了一些重建問(wèn)題的可微投影算子,當(dāng)與深度圖像先驗(yàn)或形狀先驗(yàn)相結(jié)合時(shí),可以通過(guò)梯度下降進(jìn)行有效的推斷。本文將本文的方法應(yīng)用于各種重建問(wèn)題,例如少數(shù)樣本的層析重建,包含視圖不確定性的可視船體重建,以及噪聲深度圖的三維形狀重建。實(shí)驗(yàn)結(jié)果表明,本文的方法對(duì)此類(lèi)形狀重建問(wèn)題是有效的,無(wú)需任何特定任務(wù)的訓(xùn)練。
- Introduction
考慮從輪廓重建三維形狀的問(wèn)題。經(jīng)典的視覺(jué)外殼算法與每個(gè)視點(diǎn)的可見(jiàn)體積相交,易于實(shí)現(xiàn),但對(duì)視點(diǎn)估計(jì)誤差和輪廓噪聲敏感。針對(duì)這個(gè)問(wèn)題的貝葉斯方法是在形狀和視點(diǎn)估計(jì)上添加適當(dāng)?shù)南闰?yàn)并進(jìn)行后驗(yàn)推理。這一挑戰(zhàn)有兩個(gè)原因。首先,由于沒(méi)有緊湊的形狀基礎(chǔ)來(lái)搜索一般形狀,因此三維形狀的搜索空間很大。其次,對(duì)于高維數(shù)據(jù),貝葉斯推理通常代價(jià)高昂。為此,本文提出了可微投影算子T和深形狀先驗(yàn),它們可以通過(guò)隨機(jī)梯度下降及其變體進(jìn)行貝葉斯推斷[23]。
雖然存在許多先驗(yàn),但令人感興趣的是Ulyanov等人的“深形狀先驗(yàn)”。[21]表明自然圖像x的空間可以表示為參數(shù)族fθ(η),其中f是卷積網(wǎng)絡(luò),θ是其參數(shù),η是固定輸入。他們的工作表明,對(duì)自然圖像的搜索可以被對(duì)網(wǎng)絡(luò)θ的參數(shù)的搜索所代替,這是有效的通過(guò)梯度下降完成。本文的工作使這個(gè)想法更進(jìn)一步。首先,本文賦予深度圖像先驗(yàn)以3D卷積,從而得到深度形狀先驗(yàn)。其次,在給定投影參數(shù)φ(如視點(diǎn))的情況下,引入可微投影算子T,對(duì)投影測(cè)量(如輪廓)進(jìn)行建模。因此,在給定噪聲投影測(cè)量y的情況下,對(duì)形狀x的推斷可簡(jiǎn)化為對(duì)網(wǎng)絡(luò)參數(shù)θ和投影參數(shù)φ的以下優(yōu)化:
本文證明,對(duì)于許多形狀構(gòu)造問(wèn)題,如斷層重建、輪廓形狀或深度圖,可以使用現(xiàn)有的神經(jīng)網(wǎng)絡(luò)構(gòu)建塊來(lái)構(gòu)造投影算子,這些神經(jīng)網(wǎng)絡(luò)構(gòu)建塊對(duì)于輸入?yún)?shù)和投影參數(shù)都是可微的。因此,使用“反向傳播”機(jī)制可以最小化目標(biāo),這通常比使用馬爾可夫鏈蒙特卡羅(MCMC)技術(shù)的貝葉斯推理快得多。 除了選擇網(wǎng)絡(luò)架構(gòu)和投影運(yùn)營(yíng)商外,該方法不需要任何特定任務(wù)的培訓(xùn)。盡管如此,它在低采樣狀態(tài)下的層析重建中產(chǎn)生了令人信服的結(jié)果,在低采樣狀態(tài)下,它優(yōu)于基于迭代BM3D的最新方法[13]。本文的工作還表明,將深度圖像推廣到三維體之前,對(duì)三維形狀的建模是有效的。在諸如可視船體重建或深度圖重建等問(wèn)題中,即使在視圖估計(jì)中存在不確定性,或深度圖被噪聲污染時(shí),本文也可以?xún)H從少數(shù)視圖準(zhǔn)確估計(jì)物體的三維形狀。重建結(jié)果明顯優(yōu)于手工制作的前驅(qū)。這些任務(wù)如圖3-9所示。
- Related work
在本節(jié)中,本文簡(jiǎn)要總結(jié)了用于解決形狀圖像和體積重建的反問(wèn)題的技術(shù):
數(shù)據(jù)項(xiàng)E和投影算子T是應(yīng)用程序?qū)S玫?#xff0c;但在對(duì)前一項(xiàng)P建模時(shí)有相當(dāng)大的靈活性。這些包括平滑度優(yōu)先項(xiàng),如總變差(TV)[17]和L0梯度[25]、面片上的高斯混合模型[29]、去噪自動(dòng)編碼器[22]。深度圖像先驗(yàn)[21]將圖像表示為具有來(lái)自固定(隨機(jī))輸入的隨機(jī)參數(shù)的輸出卷積網(wǎng)絡(luò)。結(jié)果表明,由多個(gè)卷積層和合流層組成的網(wǎng)絡(luò)輸出,再由多個(gè)反卷積層組成,這些層之間的跳躍連接很少或沒(méi)有跳躍連接,都會(huì)產(chǎn)生自然圖像。最近,對(duì)深度圖像先驗(yàn)的一個(gè)擴(kuò)展表明,它與高斯過(guò)程是漸近等價(jià)的[5]。這就提出了一種貝葉斯方法來(lái)解決這個(gè)問(wèn)題:通過(guò)Langevin dynamics進(jìn)行后驗(yàn)推理避免了提前停止的需要,并提高了去噪和修復(fù)任務(wù)的結(jié)果。深度圖像先驗(yàn)也與過(guò)程先驗(yàn)有關(guān),例如雙邊濾波[20]、非局部均值[3]或塊匹配3D(BM3D)[7]。這些模型利用圖像中斑塊的非局部自相似性對(duì)其進(jìn)行整體去噪。對(duì)于包含噪聲和不完全測(cè)量y的復(fù)雜投影算子T,應(yīng)用過(guò)程先驗(yàn)是非常重要的。假設(shè)y和z表示被噪聲污染的觀測(cè)和未觀測(cè)投影測(cè)量:(y,z)=T(x)+δ。例如,y可以表示傅里葉變換中的頻率子集,或壓縮傳感應(yīng)用中的數(shù)據(jù)投影。Maggioni等人
[13] 提出了以下迭代方案:
優(yōu)化將重構(gòu)與先驗(yàn)解耦合。第一個(gè)涉及圖像先驗(yàn)和平方損失項(xiàng)的推斷。第二個(gè)目標(biāo)是z的二次型,可以用共軛梯度下降法求解。解耦允許使用顯式或隱式先驗(yàn),以及學(xué)習(xí)的近端投影算子[4,26]proj(z-u,ρ),該算子將向量z-u映射到距離自然圖像流形ρ一段距離內(nèi)的x,類(lèi)似于去噪自動(dòng)編碼器,以解決反問(wèn)題。最后,一類(lèi)方法直接學(xué)習(xí)逆映射G:Y→X,使用豐富的參數(shù)模型,如完全有監(jiān)督的神經(jīng)網(wǎng)絡(luò)。這些模型在訓(xùn)練過(guò)程中分散了推理,并在噪聲測(cè)量的情況下實(shí)現(xiàn)了有效的推理。這些模型已經(jīng)成功地應(yīng)用于各種反問(wèn)題,如超分辨率[8]、去噪[24]、著色[12,28]以及從圖像中估計(jì)深度和法線(xiàn)[9]。然而,缺點(diǎn)是模型的結(jié)構(gòu)和參數(shù)可能是專(zhuān)門(mén)針對(duì)噪聲和投影操作員的,這需要為每個(gè)任務(wù)分別進(jìn)行培訓(xùn)。與這項(xiàng)工作密切相關(guān)的是,最近的一些方法利用對(duì)深度特征的幾何變換來(lái)生成三維物體的新視圖[14,19]。與本文的方法相反,這些技術(shù)并沒(méi)有明確定義投影算子——它們是由一個(gè)深層神經(jīng)網(wǎng)絡(luò)參數(shù)化的。因此,推斷的表示并不直接對(duì)應(yīng)于三維形狀,而是對(duì)應(yīng)于由模型學(xué)習(xí)的更高級(jí)別的表示。
- Method
本文的貝葉斯推理方法是使用隨機(jī)梯度下降(SGD)優(yōu)化方程1中的目標(biāo)。這對(duì)應(yīng)于最大似然估計(jì)(MLE),或最大后驗(yàn)估計(jì)(MAP),前提是參數(shù)θ上的先驗(yàn)被相加。雖然存在基于SGD的后驗(yàn)抽樣的更復(fù)雜的方案[5, 23 ],但是本文認(rèn)為SGD對(duì)于本文考慮的問(wèn)題席工作相當(dāng)好。用SGD求解重建問(wèn)題需要構(gòu)造形狀上的可微投影算子和可微先驗(yàn)。本文將深度圖像先驗(yàn)用于基于圖像的重建任務(wù),而將三維卷積版本用于形狀重建任務(wù)。在早期的工作中,深度圖像先驗(yàn)被用來(lái)解決線(xiàn)性測(cè)量的重建問(wèn)題[21]。例如,在去噪中,投影運(yùn)算符是標(biāo)識(shí)變換,而在修復(fù)中,投影運(yùn)算符是指示哪些像素存在或不存在的掩碼。在這一節(jié)中,本文提出了三種可微投影算子,它們可以與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合,從局部和噪聲觀測(cè)中重建形狀。
3.1. Radon Projection (TR)
其中S是圖像的大小。注意,Radon變換R的結(jié)果也是一個(gè)圖像(稱(chēng)為sinogram,由φ和R參數(shù)化),如圖3所示。最后,本文的算子TR接收大小為S×S的圖像I,表示投影角度的一組值φ,并輸出大小為S×|φ|的圖像。該過(guò)程是可微的,并且可以實(shí)現(xiàn)為多個(gè)旋轉(zhuǎn)圖像的一維和。
3.2. Silhouette Projection (TS)
基于輪廓的形狀重建包括以下問(wèn)題:給定一組來(lái)自不同視圖的同一物體的輪廓圖像,估計(jì)物體的三維形狀。
3.3. Depth Image Projection (TD)
現(xiàn)在本文得到了每個(gè)體素的可見(jiàn)性值,投影圖像中像素的深度值就是a沿視線(xiàn)的線(xiàn)積分:。這將沿著可見(jiàn)的整個(gè)視線(xiàn)累積體素的數(shù)量,因此它給出深度值。有關(guān)圖示,請(qǐng)參閱圖2。當(dāng)把這個(gè)算子和神經(jīng)網(wǎng)絡(luò)一起使用時(shí),本文發(fā)現(xiàn)如果本文應(yīng)用指數(shù)衰減,它會(huì)更好地工作。因此,本文可以定義深度投影運(yùn)算符TD如下:
這會(huì)平滑地將深度值映射到[0,1]之間的范圍。具體來(lái)說(shuō),它將深度值映射為0到0,并將單位映射為1,同時(shí)仍然保持可微運(yùn)算符。
- Experiments
網(wǎng)絡(luò)架構(gòu)。
在體積重建實(shí)驗(yàn)(即分別從輪廓圖像和深度圖像重建3D形狀)中,網(wǎng)絡(luò)結(jié)構(gòu)是完全卷積的UNet[16],其中編碼器具有5層8、16、32、64和128個(gè)濾波器。解碼器是編碼器的鏡像版本,跳過(guò)連接僅應(yīng)用于兩個(gè)最內(nèi)層。通過(guò)雙線(xiàn)性/三線(xiàn)性插值和卷積完成上采樣。所有卷積都有濾波器大小3,然后是批量標(biāo)準(zhǔn)化和ReLU激活函數(shù)。網(wǎng)絡(luò)的輸入是一個(gè)與輸出大小相同的張量,其值從N(0,1)采樣。
4.1. Tomography Reconstruction
層析成像的標(biāo)準(zhǔn)解是濾波反投影(FBP):它使用傅立葉切片定理反轉(zhuǎn)Radon變換。當(dāng)角度采樣率較低時(shí),使用FBP進(jìn)行的重建會(huì)產(chǎn)生嚴(yán)重的混疊偽影,如圖3第三列所示。電視先驗(yàn)極大地改善了所有三幅圖像的重建效果。第2節(jié)中描述的迭代BM3D方法[13]運(yùn)行了100次迭代。本文注意到PSNR值在100次迭代后收斂,在前20次迭代中PSNR的增益最大。請(qǐng)注意,在FBP重建上運(yùn)行BM3D對(duì)應(yīng)于此方法的一次迭代。對(duì)于深度先驗(yàn),本文通過(guò)運(yùn)行2000個(gè)梯度步長(zhǎng)來(lái)獲得結(jié)果。與迭代BM3D相比,deep prior生成的重建具有顯著更好的SSIM值和可比較或更好的PSNR值(圖3中的最后兩列)。BM3D的相對(duì)較差的性能可能是因?yàn)榕c圖像去噪應(yīng)用中觀察到的噪聲相比,CT重建中的混疊噪聲往往更結(jié)構(gòu)化,不像自然圖像噪聲。迭代BM3D算法需要多次迭代才能消除radon逆變換產(chǎn)生的偽影,但這會(huì)導(dǎo)致底層結(jié)構(gòu)的平滑,從而降低SSIM分?jǐn)?shù)。
4.2. Shape-from-Silhouette 3D Reconstruction
結(jié)果如圖4所示。即使只有少量的輪廓圖像,本文的方法也能重建出合理的三維形狀。選擇本例的視點(diǎn)通過(guò)沿水平軸均勻旋轉(zhuǎn)對(duì)象(例如,在4個(gè)視圖中,每個(gè)視圖相距90度;在8個(gè)視圖中,每個(gè)視圖相距45度,依此類(lèi)推)。這個(gè)問(wèn)題的一個(gè)基線(xiàn)方法是空間雕刻,它將所有投影視圖的交集生成占用網(wǎng)格。本文在圖5中顯示了與空間雕刻的定性比較。空間雕刻為大多數(shù)形狀提供了合理的重建,但有些對(duì)象包含諸如折痕甚至丟失的部分等人工制品。另一方面,深的形狀往往會(huì)產(chǎn)生過(guò)于平滑的形狀,這有時(shí)意味著移除對(duì)象的某些部分(圖5中的椅子)或添加應(yīng)該存在尖銳邊界的內(nèi)容(圖5中的燈)。
View uncertainties
本文將本文的方法與空間雕刻基線(xiàn)進(jìn)行了比較,并在表1中報(bào)告了估計(jì)占用網(wǎng)格在并集上的交集。該方法在不擾動(dòng)視點(diǎn)的情況下仍?xún)?yōu)于一般的空間雕刻,證明了該方法對(duì)視點(diǎn)擾動(dòng)的魯棒性。圖7顯示了重建形狀的定性比較。本文的方法重建形狀與高精細(xì)度,保留細(xì)節(jié)和薄結(jié)構(gòu)。另一方面,正如本文在圖7中所看到的,空間雕刻最終會(huì)重建缺少零件和粗糙結(jié)構(gòu)的物體。
Reconstructions using captured images
本文還評(píng)估了本文的方法,使用從相機(jī)捕獲的圖像。結(jié)果如圖6所示。拍攝對(duì)象是一個(gè)玻璃物體,本文在一個(gè)均勻的背景色下拍攝了4個(gè)等距的視圖,彼此之間的水平旋轉(zhuǎn)角度為45度。然后本文使用[1]移除背景并將每個(gè)圖像轉(zhuǎn)換為二值輪廓 形象。本文用本文的方法與標(biāo)準(zhǔn)視覺(jué)外殼(即空間雕刻)進(jìn)行比較。正如可以觀察到的,本文的方法導(dǎo)致了平滑的重建,結(jié)果對(duì)象看起來(lái)更自然。相比之下,視覺(jué)外殼結(jié)果包含偽影和圍繞更改視圖的尖銳過(guò)渡,這將需要大量視圖來(lái)消除。
4.3. Shape-from-Depth Images 3D Reconstruction
深度圖像的三維重建設(shè)置與二值圖像相同,除了使用投影TD而不是TS。所有輸入深度圖像的范圍都使用等式(8)中的指數(shù)映射縮放為[0,1]。分析了該方法在4個(gè)視點(diǎn)下對(duì)不同高斯噪聲擾動(dòng)下的深度圖像進(jìn)行三維形狀重建的能力。結(jié)果如圖8所示。此外,本文還分析了在改變視圖數(shù)目的情況下重建的質(zhì)量。結(jié)果如圖9所示。在這些實(shí)驗(yàn)中,本文保持了很高的噪聲水平(σ=0.1)。本文注意到,即使在處理非常嘈雜的投影時(shí),如果給出足夠的視圖,本文的方法也能夠重建高質(zhì)量的形狀。
- Conclusions
結(jié)論將深度圖像或體積先驗(yàn)與可微投影算子相結(jié)合,可以得到可以用隨機(jī)梯度下降從一些噪聲投影測(cè)量中重建。該方法是免費(fèi)學(xué)習(xí)的,可以作為一個(gè)通用的先驗(yàn)。盡管如此,在相對(duì)簡(jiǎn)單的網(wǎng)絡(luò)架構(gòu)下,本文的方法在基于圖像和體積重建任務(wù)中的性能優(yōu)于一些手工制作的和過(guò)程性的prior。盡管本文給出了斷層掃描和輪廓和深度圖形狀重建的結(jié)果,但只要渲染或測(cè)量過(guò)程是可微的,就可以使用該方法。這些問(wèn)題包括從陰影估計(jì)形狀和從多個(gè)陰影圖像估計(jì)幾何圖形。一個(gè)潛在的問(wèn)題是對(duì)形狀使用體積表示,這會(huì)導(dǎo)致較高的內(nèi)存要求和較長(zhǎng)的運(yùn)行時(shí)間。一個(gè)可能的研究方向是研究更緊湊的三維表示(如點(diǎn)云或多視圖)的形狀先驗(yàn)。將深先驗(yàn)知識(shí)與可微計(jì)算機(jī)圖形學(xué)管道上的工作相結(jié)合,開(kāi)辟了在許多應(yīng)用中應(yīng)用這種方法求解反問(wèn)題的可能性。
總結(jié)
以上是生活随笔為你收集整理的目标形体形状轮廓重建:ICCV2019论文解析的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 激光雷达和V2X技术
- 下一篇: 细粒度语义分割:ICCV2019论文解析