计算高效,时序一致,超清还原!清华NYU 提出 RRN:视频超分新型递归网络
原文鏈接:https://bbs.cvmart.net/articles/3158
專注計算機視覺前沿資訊和技術干貨
微信公眾號:極市平臺
官網:https://www.cvmart.net/
本文為大家介紹一個視頻超分方向的最新工作:新穎的遞歸網絡RRN。文章將殘差學習思想引入到RNN中,在幫助保持長周期紋理信息的同時降低了訓練過程中的梯度消失的風險。該工作在Vid4數據集上超越了EDVR的PSNR指標。同時,文章還對常用的三種時序建模方案進行了系統的對比分析。
paper: https://arxiv.org/2008.05765
code: https://github.com/junpan19/RRN
Abstract
? 視頻超分在監控視頻分析與超高清視頻顯示中扮演著非常重要的作用,它在工業界與學術界獲得了非常多的關注。盡管有許多基于深度學習的視頻超分方法已被提出,但是往往難以直接對這些方法進行對比,這是因為(1) 不同的損失函數;(2) 不同的訓練數據等因素對于超分結果影響非常大。
? 該文仔細研究并對了視頻超分中的三種時序建模方案(2D-CNN, 3D-CNN, RNN),同時還提出了一種新穎的遞歸殘差模塊用于高效視頻充分,其中殘差學習用于穩定訓練并提升超分性能。
? 作者通過充分的實驗表明:所提RRN計算高效同時可以生成時序一致的超分結果且具有更好的紋理細節。除此之外,所提方法在公開基準數據集取得了SOTA性能。
? 該文的貢獻主要包含兩方面:
- 精心研究并對比了視頻超分中常用的三種時序建模方法;
- 提出了一種新穎的隱狀態用于遞歸網絡,它在所有時序建模方法中取得最佳性能,并在三個公開數據集取得了SOTA性能。
Method
? 接下來,我們將重點介紹一下該文所提整理系統方案以及時序建模方法的細節。整個視頻嘲諷呢系統包含兩個部分:(1) 時序建模網絡;(2) 圖像/視頻重建網絡;(3) 損失函數。該文的重點是1與3兩個部分。在時序建模網絡方面,作者重點研究了2DCNN快融合(見下圖A)、3DCNN慢融合(見下圖B)以及RNN(見下圖C)三種時序建模方案。基于不同建模方案的分析而提出了該文的RRN建模方案(見下圖D)。
? 如前所述,該文考慮了三種形式的時序建模方案。接下來,我們就針對這三種方案進行介紹與分析。
2DCNN快融合
? 該方案以多幀作為輸入,直接通過concat方式進行融合,然后采用堆疊2D卷積提取特征。受EDSR啟發,作者了采用改進2D殘差模塊設計了2DCNN快融合模塊。該融合過程可以描述為:
Rt=W_net2D{W_fusion2D[I_t?T,?,I_t+T]}R_t = W\_{net2D}\{W\_{fusion2D}[I\_{t-T}, \cdots, I\_{t+T}]\} Rt?=W_net2D{W_fusion2D[I_t?T,?,I_t+T]}
W_fusion2DW\_{fusion2D}W_fusion2D的輸入維度為NC×H×WNC \times H \times WNC×H×W,其中N=2T+1N = 2T + 1N=2T+1。W_fusion2D,W_net2DW\_{fusion2D}, W\_{net2D}W_fusion2D,W_net2D表示2D卷積的權值。該2DCNN的輸出殘差特征的維度為Cr2×H×WCr^2 \times H \times WCr2×H×W,然后通過depth-to-space方式進行上采樣,最后將所得殘差圖與原始輸入中間幀的bicubic結果相加得到最終的超分結果。
3DCNN慢融合
? 該方案以視頻序列作為輸入,然后采用堆疊3D卷積提取空-時信息。類似2DCNN,作者采用了相似的方式進行空-時信息提取,區別在于卷積由2D編程了3D。相比2DCNN,3DCNN中的時序信息融合更慢,該過程可以描述為:
Rt=W_fusion3D{W_net3D(I_t?T:t+T)}R_t = W\_{fusion3D}\{W\_{net3D}(I\_{t-T:t+T})\} Rt?=W_fusion3D{W_net3D(I_t?T:t+T)}
? 其他的處理過程與2DCNN的過程基本相似,這里濾過不計。
RNN融合
? 相比CNN時序建模方法,RNN采用更少的幀與隱狀態作為輸入,并采用遞歸方式處理長視頻序列。一般而言,時序t的隱狀態包含三部分:(1) 前一幀的超分結果o_t?1o\_{t-1}o_t?1;(2) 前一幀的隱狀態特征h_t?1h\_{t-1}h_t?1;(3) 兩個相鄰幀I_t?1:tI\_{t-1:t}I_t?1:t。直觀上講,前后幀的像素往往具有非常強的相似性,t時刻的高頻紋理可以通過前一幀的補充信息進行進一步精煉調整。類似其他視頻處理任務,VSR中的RNN往往存在梯度消失問題。
? 為解決上述問題,作者提出了一種新穎的遞歸網絡RRN(Residual Recurrent Network),它將殘差學習思想引入到RNN中。這種設計確保了流暢的信息流,有助于保持長周期的紋理信息,進而使得RNN可以處理更長序列,同時降低了訓練過程中的梯度消失風險。在t時刻,RNN采用如下方式生成隱狀態與輸出:
其中σ(?)\sigma(\cdot)σ(?)表示ReLU激活函數,g(x~k?1)g(\tilde{x}_{k-1})g(x~k?1?)表示恒等映射,即g(x~k?1)=x~k?1g(\tilde{x}_{k-1})=\tilde{x}_{k-1}g(x~k?1?)=x~k?1?,而F(x~k?1)\mathcal{F}(\tilde{x}_{k-1})F(x~k?1?)表示學習到的殘差特征圖。
Experiments
? 之前的方法往往采用不同的訓練數據集(比如有的采用Vimeo90K,有的采用REDS,有的采用自己制作的數據)、不同的下采樣核(有的采用bicubic,有的采用blur-down),這就導致了不同方法無法公平對比。在該文中,作者采用Vimeo90K作為訓練數據集,其中的LR采用blur-down方式制作。作者選用的測試數據集為Vid4、SPMCS以及UDM10三個公開數據集。
? 對于2DCNN時序建模方案,作者設計了2DCNN-S與2DCNN-L兩種,分別采用5和10個2D殘差模塊,通道數為128;對于3DCNN時序建模方案,作者的設計類似2DCNN,故略過;為公平對比,對于RNN時序建模,作者也分別采用5和10個殘差模塊作為隱狀態,即RNN-S與RNN-L,通道數同樣為128,t0t_0t0?時刻的隱狀態初始化為0。
? 在訓練過程中,2DCNN的學習率為0.0001,3DCNN的學習率為0.001,每10epoch衰減0.1,總計訓練30epoch;RNN的學習率為0.0001,每60epoch衰減0.1,總計訓練70epoch。所有模型均采用L1L1L1損失函數、Adam優化器。CNN建模方案的Batch=64,RNN建模方案的Batch=4
? 下表給出了不同建模方案在公開數據集上的性能以及耗時對比。很明顯,(1) 3DCNN時序建模方案以極大優勢優于2DCNN,然而它非常耗時。(2) 想必你3DCNN時序建模方案,RNN計算高效,參數量更少,同時具有更好的性能指標。(3)RRN-S能夠以33fps生成720p視頻,RRN-L能夠以22fps生成720p視頻。
作者同時還對比了不同建模方案的時序一致性,見下圖。RRN方案可以生成時序一致的結果同時具有更少的偽影問題。
? 為更好說明RRN的有效性,作者還對比了不帶殘差學習時的性能對比,見下表。可以看到不添加殘差學習存在嚴重的梯度消失問題。
?最后,作者給出了所提方法與其他視頻超分方案的性能與效果對比。
?全文到此結束,對該文感興趣的同學可以去看一下原文。最后,期待作者能盡快開源TGA、RSDN以及RRN的代碼以及預訓練模型,期待ing!
關注極市平臺公眾號(ID:extrememart),獲取計算機視覺前沿資訊/技術干貨/招聘面經等
總結
以上是生活随笔為你收集整理的计算高效,时序一致,超清还原!清华NYU 提出 RRN:视频超分新型递归网络的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 50种Matplotlib科研论文绘图合
- 下一篇: 国内外优秀的计算机视觉团队汇总|持续更新