端到端全景分割
端到端全景分割
An End-to-End Network for Panoptic Segmentation
摘要
全景分割是一個具有挑戰性的課題,它需要為每個像素指定一個類別標簽,同時對每個對象實例進行分割。傳統上,現有的方法使用兩個獨立的模型,而不共享特性,這使得流水線不易實現。此外,通常采用啟發式方法對結果進行合并。然而,在合并過程中,如果沒有足夠的上下文信息,很難確定對象實例之間的重疊關系。為了解決這一問題,本文提出了一種新的端到端遮擋感知網絡(OANet),它可以有效地預測單個網絡中的實例和內容分割。此外,本文還引入了一個新的空間排序模塊來處理預測實例之間的遮擋問題。通過大量的實驗驗證了該方法的有效性,并在COCO全景基準上取得了良好的效果。
- Introduction
在本文中,本文提出了一種新的端到端算法,如圖1(b)所示。據本文所知,這是第一個能夠在端到端管道中處理上述問題的算法。更具體地說,本文將實例分割和內容分割合并到一個網絡中,該網絡共享主干特性,但對這兩個任務應用不同的頭分支。在訓練階段,主干功能將通過多項監督的累積損失進行優化,而總分支將只對特定任務進行微調。
為了解決對象實例之間存在重疊關系的問題,提出了一種新的空間排序模塊算法。本模塊學習排名分數,并為實例提供排序依據。
總之,本文將算法的貢獻總結如下:
?本文首先提出了一種端到端的遮擋感知管道,用于解決全景分割問題。
?本文引入了一個新的空間排序模塊來解決重疊關系的模糊性,這種模糊性通常存在于全景分割問題中。
?本文在COCO全景分割數據集上獲得最先進的性能。
- Proposed End-to-end Framework
本文算法的概述如圖2所示。本文的算法有三個主要部分:
1) stuff分支預測整個輸入的stuff分段。
2)實例分支提供實例分段預測。
3)空間排名模塊為每個實例生成一個排名分數。
3.1. End-to-end Network Architecture
本文采用FPN[26]作為端到端網絡的骨干架構。例如分割,本文采用原始的Mask R-CNN[14]作為本文的網絡框架。本文應用自頂向下的路徑和橫向連接來獲得特征地圖。然后,附加3×3卷積層得到RPN特征映射。之后,本文申請ROIAlign[14]層用于提取對象建議特征并獲得三個預測:建議分類分數、建議邊界框坐標和建議實例掩碼。
對于材料分割,在RPN特征圖上疊加兩個3×3卷積層。為了實現多尺度特征提取,本文將這些層與后續的3×3卷積層和1×1卷積層連接起來。圖3顯示了stuff分支的詳細信息。在訓練過程中,由于輔助目標信息可以為目標的預測提供對象上下文,所以本文同時對目標的分割和分割進行監控。在推論中,本文只提取材料預測并將其標準化為概率。為了突破培訓過程中的信息流動障礙,提高整個管道的效率,本文共享了兩個分支的骨干網絡的特點。
這里提出的問題可以分為兩部分:
1)特征映射上的共享粒度
2)實例丟失和數據丟失之間的平衡。
在實踐中,本文發現隨著更多的特征圖被共享,本文可以獲得更好的性能。因此,本文共享特征映射,直到跳過連接層,即圖3所示的RPN頭之前的3×3卷積層。
2.2. Spatial Ranking Module
現代的實例分割框架通常是基于對象檢測網絡和一個附加的掩模預測分支,如掩模RCNN[14]通常是基于FPN[26]。一般來說,當前的目標檢測框架不考慮不同類別之間的重疊問題,因為流行的度量不受此問題的影響,例如AP和AR。然而,在全景分割任務中,由于一個圖像中的像素數是固定的,因此重疊問題,或者具體來說,必須解決一個像素的多個指定。
一般情況下,檢測得分是用來對實例進行降序排序,然后根據得分較大的對象在得分較低的對象之上的規則將其分配給stuff畫布。然而,這種啟發式算法在實際應用中很容易失敗。例如,讓本文考慮一個戴領帶的人,如圖7所示。由于person類比COCO數據集中的tie更頻繁,因此其檢測分數往往高于tie邊界框。因此,通過上面的簡單規則,tie實例被person實例覆蓋,導致性能下降。
本文可以通過全景注釋來緩解這種現象嗎?也就是說,如果本文強迫網絡學習的人在標注的地方打一個洞,可以避免上述情況嗎?如表3所示,本文使用上述注釋進行實驗,但僅發現衰減的性能。因此,這種方法目前不適用。為了解決這一問題,本文采用了一種類似語義的方法,提出了一種簡單而有效的解決遮擋問題的算法,稱為空間排序模塊。
如圖4所示,本文首先映射結果實例分割到輸入大小的張量。特征映射的維數是對象類別的個數,不同類別的實例映射到相應的通道。
- Experiments
3.1. Dataset and Evaluation Metrics
數據集:
本文在COCO全景分割數據集上進行了所有實驗[18]。這個數據集包含118K個用于訓練的圖像,5k個用于驗證的圖像,其中80個類別的內容有注釋,53個類別的內容有注釋。本文只使用訓練圖像進行模型訓練和驗證集測試。最后,本文將測試開發結果提交給COCO 2018全景分割排行榜。
評估指標:
本文使用[18]中定義的標準評估指標,稱為全景質量(PQ)。
它包含兩個因素:
1)分割質量(SQ)衡量所有類別和
2)檢測質量(DQ)僅測量實例類。
PQ、SQ和DQ的數學形式在等式5中給出,其中p和g是預測和基本真值,TP、FP、FN表示真陽性、假陽性和假陰性。
很容易發現SQ是匹配實例的常用平均IOU度量,DQ可以看作是檢測精度的一種形式。匹配閾值設置為0.5,即如果預測的像素IOU和地面真值大于0.5,則認為預測匹配,否則不匹配。對于stuff類,圖像中的每個stuff類都被視為一個實例,無論其形狀如何。
3.2. Implementation Details
本文選擇ResNet-50[16]在ImageNet上預訓練用于消融研究。本文使用SGD作為優化算法,動量為0.9,權值衰減為0.0001。采用帶預熱策略的多階段學習率策略[33]。也就是說,在最初的2000次迭代中,本文通過將學習率從0.002提高到0.02來使用線性漸進預熱策略。在60000次迭代之后,本文將學習率降低到0.002(對于接下來的20000次迭代),并進一步將其設置為0.0002(對于剩余的20000次迭代)。輸入的批大小設置為16,這意味著每個GPU在一次迭代中使用兩個圖像。對于其他細節,本文使用Mask RCNN的經驗[14]。除了對本文網絡的兩個分支進行培訓外,還應該注意空間排名模塊。在訓練過程中,監督標簽是對應的非重疊語義標簽,訓練為語義分割網絡。本文設置忽略的非沖突像素,以強制網絡聚焦于沖突區域。
3.3. Ablation Study on Network Structure
在本小節中,本文將重點介紹端到端網絡設計的特性。本文主要討論了三個問題:損失平衡參數、業務分支的對象上下文和兩個分支的共享模式。為了避免實驗的笛卡爾積,本文只修改特定的參數,并對另一個參數進行最優控制。
3.4. Ablation Study on Spatial Ranking Module
圖7解釋了本文的空間排名模塊的原理。對于示例輸入圖像,網絡預測一個人加一個平局,其包圍盒得分分別為0.997和0.662。如果本文用分數來決定結果,平局將完全由該人來決定。然而,在本文的方法中,本文可以得到每個實例的空間排名分數,分別為0.325和0.878。借助新的分數,本文可以得到正確的預測。圖8總結了更多的例子。
- Conclusion
本文提出了一種新的端到端遮擋感知算法,該算法將常見的語義分割和實例分割融合到一個模型中。為了更好地利用不同的監控機制,減少計算資源的消耗,本文研究了不同分支之間的特征共享問題,認為應該盡可能多地共享特征。此外,本文還觀察了全景分割中提出的特殊排序問題,并設計了簡單而有效的空間排序模塊來解決這一問題。實驗結果表明,本文的方法優于以前的最新模型。
總結