论文阅读|目标检测之CE-FPN,将通道增强运用到上采样,减少信息丢失,同时添加了通道注意力机制
論文原文:https://arxiv.org/abs/2103.10643
目前FPN-based的方法大多存在Channel Reduction的固有缺陷,導致語義信息的丟失。而融合后的各種特征圖可能會造成嚴重的混疊效果。本文提出了一種新的通道增強特征金字塔網絡(CE-FPN),該網絡由3個簡單而有效的模塊組成。
具體來說,受sub-pixel convolution的啟發,提出了一種既實現Channel增強又實現上采樣的sub-pixel skip fusion方法。它代替了原來的卷積和線性上采樣,減少了由于Channel Reduction而造成的信息丟失。然后,然后本文還提出了一種sub-pixel context enhancement模塊來提取更多的特征表示,由于通過Sub-pixel Convolution利用了豐富的通道信息,所以優于其他context方法。此外,引入了一個channel attention guided module(通道注意力引導模塊)對每一層的最終集成特征進行優化,從而在較少的計算量下減輕了混疊效應。實驗表明,CE-FPN在MS COCO基準上與最先進的FPN-based的檢測器相比,具有競爭性的性能。
1. INTRODUCTION
FPN能有效解決物體的尺度變化問題,通過融合底層背景信息和高層語義信息大大提高了檢測精度(YOLOF中指出FPN之所以成功除了多尺度特征融合,還有“分而治之”的作用,即不同level檢測不同尺度物體,并且認為這個才是其成功關鍵)。然而,FPN還存在兩個普遍認同的局限性:
(1)融合過程中的信息衰減 ;(2)跨尺度融合中的混疊效應。
此外,本文還認為**(3)存在Channel Reduction的固有缺陷**。
下面分別介紹這3點。
Information loss of channel reduction.
圖1(a)中FPN-based的方法采用1×1 convolutional layers對backbone的輸出特征映射CiC_iCi?進行Channel降維,丟失了Channel信息。CiC_iCi?通常在高級特征映射中提取數千個通道,這些通道在中被縮減為一個小得多的常數(比如說2048縮減為256)。現有的方法主要是在Channel Redection映射上增加額外的模塊,而不是像圖1(b)、1?所示的充分利用CiC_iCi?。EfficientDet開發不同FPN通道的各種配置。這表明,增加FPN通道可以提高性能,同時增加更多的參數和FLOPs,所以EfficientDet仍然采用相對較少的通道,并提出了復雜連接的BiFPN以獲得更好的精度。因此,雖然從主干網輸出的Channel Redection大大減少了后續預測的計算消耗,但也帶來了精度損失。
Information decay during fusion.
在目標檢測中, low-level和high-level是互補的,而在自頂向下的特征融合過程中,語義信息會被稀疏化。
PAFPN和Libra R-CNN提出了融合方法,充分利用每一層的特征。然而,high-level語義特征的表征能力并沒有被廣泛應用于更大的感受野。而利用context信息是一種改善特征表示的比較好的方法,它避免了直接添加更深的卷積層而帶來的計算負擔。
Aliasing effects in cross-scale fusion.
Cross-scale fusion和skip connections已經被廣泛用于提高模型的性能。簡單的連接實現了在每個層次上的各種功能的充分利用。
然而,Cross-scale特征圖存在語義差異,插值后直接融合可能會產生混疊效應。各種綜合特征可能會混淆定位和識別任務。通過對融合特征的非局部注意的細化,可以設計更多的注意模塊來優化融合的混疊特征,提高其識別能力。
首先,受超分辨率子像素卷積[15]的啟發,我們引入了一種子像素跳過融合方法,以利用原始的跨尺度主干輸出以及豐富的通道信息,如圖1(d)所示。 其次,我們提出了一個子像素上下文增強模塊,用于從最高級別的特征圖中提取和集成各種上下文信息。 子像素卷積是一種先增加低分辨率圖像的通道維度的上采樣方法,這也帶來了額外的計算量和不可靠性。 值得注意的是,FPN中的high-level 特征已獲得足夠數量的通道,從而可以直接使用子像素卷積。 代替原始的1×1卷積和上采樣,所提出的方法可以減輕信道信息丟失。 因此,我們將亞像素卷積的原始上采樣功能擴展為融合通道信息,這與CARAFE [16]不同。 第三,我們提出了一個簡單而有效的頻道關注引導模塊,以優化每個級別上的最終集成功能。 注意模塊僅在一些計算負擔下減輕了混疊效果。 我們將整個模型命名為ChannelEnhancement Feature Pyramid Network(CE-FPN),它對于各種基于FPN的檢測器都是靈活而通用的。
論文貢獻:
- 受sub-pixel convolution啟發,提出新的通道增強方法。將sub-pixel convolution固有的上采樣功能擴展為擴展來整合模塊中豐富通道信息。
- 引入簡單有效的通道注意力導向模塊來優化每層上的整合特征。
- 優于過去基于FPN的SOTA檢測器。
2. Related Work
文章聚集于減少由于FPN建設中的信道下降而導致的信息丟失,并在復雜集成后優化最終特征。
3. Proposed Methods
CE-FPN有三個部分: Sub-pixel Skip Fusion(SSF), Sub-pixel Context Enhancement (SCE), 和ChannelAttention Guided Module (CAG).下面詳細介紹這三個部分。
A. Overall
首先,網絡整體架構如圖2所示,CE-FPN和FPN一樣生成4個level的特征圖。骨干網的輸入為{C2, C3, C4, C5},他們對應原輸入圖片的stride為{4, 8, 16, 32} pixels。{F2, F3, F4} 是1×1卷積后通道減少為相同的256的特征。特征金字塔{P2, P3, P4}通過FPN中top-down路徑生成。因為我們提出的方法已經充分利用了C5的通道信息,所以刪除了F5和P5的節點 。 重復的特征融合不僅可能導致更嚴重的混疊效果,還可能導致不必要的計算負擔。 在IV-D節中分析了此過程的效果。 整合特征圖III是通過插值和最大池化生成的。最終結果{R2,R3,R4,R5} 與原始FPN的特征金字塔相對應,獨立地在這些特征圖上做預測。
B. Sub-pixel Skip Fusion
 
在FPN中,殘差網絡被廣泛用作骨干網絡,輸出通道為{256,512,1024,2048},其中high-level特征{C4, C5}包含豐富的語義信息。 如圖3(a)所示,為了提高計算效率,采用1×1卷積層來降低CiC_iCi?的Channel維數,導致CiC_iCi?的Channel信息嚴重丟失。改進的FPN-based的方法一般聚焦在256個Channel的特征金字塔PiP_iPi?上開發有效的模塊,而CiC_iCi?的Channel信息豐富卻沒有得到充分利用。
基于這一觀察,作者期望可以開發豐富通道的特征{C4, C5}來提高得到的特征金字塔的性能。為此,引入了一種直接融合方法,將低分辨率(LR)特征與高分辨率(HR)特征融合在一起。亞像素卷積是一種上采樣方法,它通過對channel的尺寸進行變換來增加寬度和高度的尺寸。像素shuffle操作符將形狀H×W×C?r2H×W ×C·r^2H×W×C?r2的特征重新排列為$ rH×rW ×C$,數學上定義為:
其中,r為upscaling factor,F為輸入特征.
如圖3b所示,在使用亞像素卷積進行上采樣時,首先需要增加LR圖像通道的尺寸,這帶來了額外的計算量。HR圖像是不可靠的,需要額外的訓練。因此,FPN采用了最近鄰上采樣。然而,作者觀察到{C4, C5}(1024,2048)中的通道數量足以執行亞像素卷積。
因此引入了亞像素跳變融合(SSF),在不進行channel縮減的情況下直接對LR圖像進行上采樣,如圖3?所示。SSF利用{C4, C5}豐富的channel信息,并將它們合并到Fi中,描述為:
其中?為減少信道的1x1卷積,i為金字塔層的指數,?ˉ\bar{?}?ˉ?為channel變換。采用亞像素卷積中的因子r作為2,使空間尺度加倍進行融合。?ˉ\bar{?}?ˉ?采用1×1卷積或分割操作改變通道尺寸,實現2倍亞像素上采樣。如果通道維度滿足要求,?ˉ\bar{?}?ˉ?執行id映射。然后通過元素求和和最近鄰上采樣得到與FPN相同的特征金字塔。
如網絡架構圖所示,SSF可以看作是C5到F4和C4到F3的2個額外的連接。SSF同時進行上采樣和channel融合,然后利用high-level特征{C4, C5}豐富的channel信息,增強了特征金字塔的表示能力。
C. Sub-pixel Context Enhancement
一方面,傳統的FPN通過融合來自high-level的語義信息,自然地賦予low-level特征圖不同的context信息;但最高級的特征只包含單一尺度的context信息,不能從其他信息中獲益。
另一方面,高分辨率的輸入圖像需要具有更大感受野的神經元來獲取更多的語義信息,以捕捉大的目標。
為了解決這兩個問題,作者采用了集成圖的框架,并引入了亞像素上下文增強(Subpixel Context Enhancement,SCE),在C5上利用更多的context信息和更大的感受野。將提取的context特征融合到集成圖I中。
如圖4所示。SCE的核心思想是融合大域局部信息和全局context信息,生成更具判別性的特征。假設輸入特征圖C5的形狀為 2w × 2h × 8C,輸出的集成圖I為 4w×4h×C。C為256。通過如下的平行路徑執行3個context特征。
第1步
在C5上應用3×3卷積來提取局部信息。同時,對通道尺寸進行變換,實現亞像素上采樣。然后采用亞像素卷積進行雙尺度上采樣;
第2步
輸入特征(這個輸入特征是什么?還不知道,猜測也是c5)通過3×3的最大池化下行采樣到w×h,并經過1×1卷積層來擴展Channel維度。然后進行4個亞像素卷積上采樣。這個pathway可以為更大的感受野獲得豐富的context信息。
第3步
在C5上對全局context信息執行全局平均池化。然后,得到了1×1×8C被壓縮到1×1×C,并廣播到大小4w×4h的feat map。第1和第3條路徑分別提取局部和全局context信息。
第4步
3個生成的特征映射將按元素的總和聚合到集成映射I。通過擴展3個尺度的特征表征,SCE有效地擴大了C5的感受野,提高了I的表征能力。因此,最高級特征中的語義信息在FPN中得到了充分的利用。為了簡單起見,刪除了P5和F5的節點。
D. Channel Attention Guided Module
跨尺度特征map存在語義差異,綜合的特征可能會產生混疊效應,混淆定位和識別任務。在FPN中,每一個合并的特征映射都要進行3×3的卷積,生成最終的特征金字塔。
本文提出的SSF和SCE融合了更多的跨尺度特征,使得混疊效應比原來的FPN更加嚴重。為了減輕混疊的負面影響,一個直觀的解決方案是在特征金字塔上應用注意力模塊。然而,在金字塔的每一層執行獨立的注意力模塊會帶來巨大的計算,因為一些檢測器采用6級金字塔甚至更多。同時,作者期望不同層次的注意機制能夠從其他層次的信息中學習。
為此,作者提出了一個受CBAM啟發的通道注意引導模塊(CAG),它可以引導金字塔的各個層次來緩解混疊效應。CAG只通過集成映射I提取Channel權值,然后將Channel權值乘以每個輸出特征。
CAG的流程如圖5所示。首先分別使用全局平均池化和全局最大池化來聚合2種不同的空間context信息。接下來,這2個描述符分別被轉發到FC層。最后,通過元素求和和sigmoid函數對輸出特征向量進行合并。該過程可以表述為:
其中CA()為通道注意函數,σ為sigmoid函數,i為金字塔級指數。
公式(4)表示最終的特征圖RiR_iRi?由通道注意力和每個輸出特征金字塔相乘得到。
IV. EXPERIMENTS
該模型基于mmdetection框架實現。
具體消融實驗看原論文。
5. Conclusion
CE-FPN利用sub-pixel convolution中的上采樣來有效利用有豐富通道信息的高維度通道,最后即實現了通道的降低,也沒有丟失通道信息,而是“將通道信息轉到了空間維度上”。此外,為了解決不同尺度特征圖融合時導致的語義混亂問題,引入一個多level共享的通道注意力導向機制來緩解該問題。實驗證明CE-FPN能夠有效的融合到各種FPN-based的檢測器上。
參考
https://mp.weixin.qq.com/s/WDKtvYmAxNWfhv5DF77AXw
啟發:
是不是可以接著利用sub-pixel convolution在任何需要上采樣并且減小維度的地方呢?
其它有特征融合的網絡也可以引入這個通道注意力導向機制。
總結
以上是生活随笔為你收集整理的论文阅读|目标检测之CE-FPN,将通道增强运用到上采样,减少信息丢失,同时添加了通道注意力机制的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 做SEO优化应该掌握哪些基础知识
- 下一篇: Unity中的Character Con
