Single-Stage Semantic Segmentation from Image Labels笔记
Single-Stage Semantic Segmentation from Image Labels筆記
1. 概述
本文使用單階段算法。以往的多階段回歸算法,大多都是先通過CAM或者是顯著性檢測生成顯著性區域,而后通過傳統的迭代算法或者是基于圖論算法得到較為好的結果。多階段的算法意味著更多的時間,更復雜的模型,更復雜的訓練過程。而單階段的算法在以往也提出過,但是由于精度的問題而遭受拋棄,本文根據一些衡量分割的指標:(局部一致性)local consistency, (語義準確性)semantic fidelity, and (完整性)completeness作為指導,證明單階段方法也能夠有良好的效果。
參考:https://zhuanlan.zhihu.com/p/149623318
2. 方法
這篇文章有三個創新點
1. nGWP
使用nGWP的初衷:
in the feature map to identify with the target class. This
may disadvantage small segments and increase the reliance
of the classifier on the context, which can be undesirable
due to a loss in mask precision.)
針對這三點缺陷,作者提出了nGWP模塊。
mcm_cmc?為通過softmax以后的mask的值,經過normalized weighted pooling后ycnGWPy_c^{nGWP}ycnGWP?作為分類分數,因為是normalized過的,可以看出與mask的大小沒有關系。這樣有利于對小物體分割,但mask的變小會造成recall變小。為了提高分割的完整性,作者使用一個懲罰項來提高正例的class的mask的尺寸。
由這個公式可以看出當mask過小的時候,得到一個巨大的負值,從而對相對于全圖過小的mask有一個懲罰。作者做這么多步驟是為了將分類分數與mask大小解偶。當分類分數與mask大小解偶后,就可以應用difficulty-aware loss function(e.g. focal loss),于是作者又引入了下面的公式對小mask進一步關注。
當mask過小的時候,產生的結果不變。但focal loss會減小mask尺寸增大產生的影響,以關注mask接近零時的失敗情況。
最終分類得分為ycnGWP+ycsize?focaly_c^{nGWP} + y_c^{size-focal}ycnGWP?+ycsize?focal?
class loss使用multi-label soft-margin loss function:
2. Pixel-adaptive mask refinement
classification loss影響了語意準確性(semantic fidelity)和完整性(completeness),local mask refinement會影響局部一致性。即臨近的有相似appearance的區域應該屬于同一個類。于是作者使用原本的mask m∈(0,1)(C+1)×h×wm \in (0,1)^{(C+1)\times h \times w}m∈(0,1)(C+1)×h×w和image III 來生成新的refined mask。這個函數必須高效,因為需要用新mask作為self-supervision在訓練分類網絡的同時訓練分割網絡。為了高效性,作者使用pixel-adaptive convolution(PAC)來實現這個過程。主要想法是用臨近標簽的convex combination來迭代地更新pixel labelm:,i,jm_{:, i, j}m:,i,j?
具體來說,對每個像素,作者計算出一個affinity kenel來衡量它與它的相鄰像素在RGB空間的相似性。然后迭代的優化更新semantic mask。
kernel kkk是關于image III的方程。σ\sigmaσ是圖像像素intensity的局部standard deviation。并且,在最終的affinity distance之前,作者使用了softmax將α\alphaα轉成了0,1之間的數。具體的迭代次數與kernel的size和shape有關。值得注意的是,PAMR是不參與backpropogate的。作者采用了confidence>60%(background confidence >70%)的mask作為偽標簽。
3. Stochastic gate
強大的模型可能會模仿偽標簽(pseudo ground truth)的錯誤,之前的研究顯示,大的感受野(receptive field)能夠學習分割任務中的復雜現象。為了防止self-supervision中的錯誤的復合效應,作者提出了一種regularisation,命名為stochasitc Gate(SG)。主要的想法是,將具有大感受野的深層feature與具有一般大小感受野的(之前的layer的)feature結合。具體來說,x(d)x^{(d)}x(d), x(s)x^{(s)}x(s)分別為deep feature map和shallow feature map. 在訓練階段對每個像素使用SG類似于dropout。
在inference時,作者使用固定的mixing rate ∈[0,1]\in [0,1]∈[0,1]。調節兩種feature的占比。
Shallow feature可能沒有足夠的semantic information。為了增強他們的表達性,并保留原有的感受野,作者設計了Global cue Injection(GCI)。據上圖所示,deep feature通過1by1 convolution將channels增加一倍。之后用過Global Max Pooling(GMP)提取了兩個vectors。紅色區域為baseline model DeepLabv3+
之后通過上式得到增強的shallow feature。μ\muμ,σ\sigmaσ為某一個channel中x(s)x^{(s)}x(s)的mean和std。
總結
以上是生活随笔為你收集整理的Single-Stage Semantic Segmentation from Image Labels笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Error type: LoadXML
- 下一篇: Java高级用户指南-核心Java