ICDAR 2019论文:自然场景文字定位技术详解
自然場景文字定位是文字識別中非常重要的一部分。與通用的物體檢測相比,文字定位更具挑戰性,文字在長寬比、尺度和方向上有更大范圍的變化。針對這些問題,本文介紹一種融合文字片段及金字塔網絡的場景文字定位方法。該方法將特征金字塔機制應用到單步多框檢測器以處理不同尺度文字,同時檢測多個文字片段以及學習出文字片段之間8-neighbor連接關系,最后通過8-neighbor連接關系將文字片段連接起來,實現對不同方向和長寬比的文字定位。此外,針對文字通常較小特點,擴大檢測網絡中backbone模型深層特征圖,以獲得更好性能。
本文提出的方法已發表在文檔分析與識別國際會議ICDAR2019 (International Conference on Document Analysis and Recognition)上,審稿人評論該方法為“As it is of more practical uses”,認可了它的實用性。
ICDAR是由國際模式識別學會(IAPR)組織的專業會議之一,專注于文本領域的識別與應用。ICDAR大會每兩年舉辦一次,目前已發展成文字識別領域的旗艦學術會議。為了提高自然場景的文本檢測和識別水平,國際文檔分析和識別會議(ICDAR)于2003年設立了魯棒文本閱讀競賽(“Robust Reading Competitions”)。至今已有來自89個國家的3500多支隊伍參與。ICDAR 2019將于今年9月20-25日在澳大利亞悉尼舉辦。 美團今年聯合國內外知名科研機構和學者,提出了”中文門臉招牌文字識別”比賽(ICDAR 2019 Robust Reading Challenge on?Reading Chinese Text on Signboards)。
背景
自然場景圖像中的文字識別已被廣泛應用在現實生活中,例如拍照翻譯,自動駕駛,圖像檢索和增強現實等,因此也有越來越多的專家學者對其進行研究。自然場景文字定位是指對場景圖像中所有文本的精確定位,是自然場景文字識別中第一步也是最重要的一步。由于自然場景下文本顏色、大小、寬高比、字體、方向、光照條件和背景等具有較大變化(如圖1),因此它是非常具有挑戰性的。
圖 1 自然場景文字圖片
深度學習技術在物體識別和檢測等計算機視覺任務方面已經取得了很大進展。許多最先進的基于卷積神經網絡(CNN)的目標檢測框架,如Faster RCNN、SSD 和FPN[1]等,已被用來解決文本檢測問題并且性能遠超傳統方法。
深度卷積神經網絡是一個多層級網絡結構,淺層特征圖具有高分辨率及小感受野,深層特征圖具有低分辨率及大感受野。具有小感受野的淺層特征點對于小目標比較敏感,適合于小目標檢測,但是淺層特征具有較少的語義信息,與深層特征相比具有較弱的辨別力,導致小文本定位的性能較差。另一方面,場景文字總是具有夸張的長寬比(例如一個很長的英文單詞或者一條中文長句)以及旋轉角度(例如基于美學考慮),通用物體檢測框架如Faster RCNN和SSD是無法回歸較大長寬比的矩形和旋轉矩形。
圍繞上面描述的兩個問題,本文主要做了以下事情:
為了處理不同尺度的文本,借鑒特征金字塔網絡思路,將具有較強判別能力的深層特征與淺層特征相結合,實現在各個層面都具有豐富語義的特征金字塔。另外,當較深層中的小對象丟失時,特征金字塔網絡仍可能無法檢測到小對象,深層的上下文信息無法增強淺層特征。我們額外擴大了深層的特征圖,以更準確地識別小文本。
我們不直接回歸文本行,而是將文本行分解為較小的局部可檢測的文字片段,并通過深度卷積網絡進行學習,最后將所有文字片段連接起來生成最終的文本行。
現有方法
最新的基于深度神經網絡的文本定位算法大致可以分為兩大類:(1)基于分割的文本定位;(2)基于回歸的文本定位。
(1)?基于分割的文本定位
當前基于分割的文本定位方法大都受到完全卷積網絡(FCN [2])的啟發。全卷積網絡(FCN, fully convolutional network), 是去除了全連接(fc)層的基礎網絡,最初是用于實現語義分割任務。由于FCN網絡最后一層特征圖的像素分辨率較高,而圖文識別任務中需要依賴清晰的文字筆畫來區分不同字符(特別是漢字),所以FCN網絡很適合用來提取文本特征。當FCN被用于圖文識別任務時,最后一層特征圖中每個像素將被分成文字行(前景)和非文字行(背景)兩個類別。
?
(2)?基于回歸的文本定位
Textboxes [3] 是經典的也是最常用的基于回歸的文本定位方法,它基于SSD框架,訓練方式是端到端,運行速度也較快。為了適應文本行細長型特點,特征層也用長條形卷積核代替了其他模型中常見的正方形卷積核。為了防止漏檢文本行,還在垂直方向增加了候選框數量。為了檢測大小不同的字符塊,在多個尺度的特征圖上并行預測文本框, 然后對預測結果做NMS過濾。
提出方法
我們的方法也是基于SSD,整體框架如圖4。為了應對多尺度文字尤其是小文字,對高層特征圖進行間隔采樣,以保持高層特征圖分辨率。同時借鑒特征金字塔網絡相關思路,將高層特征圖上采樣與底層特征疊加,構建一個新的多層級金字塔特征圖(圖4藍色框部分)。此外,為了處理各種方向文字,在不同尺度的特征圖上預測文字片段以及片段之間的連接關系,然后對預測出的文字片段和連接關系進行組合,得到最終文本框。下面將具體介紹方法。
(1)?擴大高層特征圖
深度卷積神經網絡通常是逐層下采樣,這對于物體分類來說是有效的,但是對于檢測任務來說是有損害的。基于時間和性能的權衡考量,我們對卷積網絡中最后幾層特征進行間隔采樣,如圖5,從Conv6_2層開始下采樣,Conv7_2層保持原分辨率,Conv8_2層再下采樣。
(2)?構建特征金字塔
雖然通過擴大深度特征圖的設計可以更好地檢測小文本,但較小的文本仍然難以檢測。為了更好地檢測較小的文本,進一步增強較淺層(例如圖5中conv4_3,Fc7)的特征。我們通過融合高層和低層的特征構建了一個新的特征金字塔(圖4中藍色部分:conv4_3_f,?fc7_f,?conv6_2_f,?conv7_2_f,?conv8_2_f 和conv9_2_f),新的金字塔特征具有更強辨別力和語義豐富性。
高層和低層特征融合策略如圖6所示,高層特征圖先進行上采樣使之與低層特征圖相同大小,然后與低層特征圖進行疊加,疊加后的特征圖再連接一個3*3卷積,獲得固定維度的特征圖,我們設定固定維度d=256。
(3)預測文字片段及片段之間連接關系
如圖7,先將每個文字詞切割為更易檢測的有方向的小文字塊(segment),然后用鄰近連接(link?)將各個小文字塊連接成詞。這種方案方便于識別長度變化范圍很大的、帶方向的詞和文本行,它不會象Faster-RCNN等方案因為候選框長寬比例原因檢測不出長文本行,而且處理速度很快。
基于第(2)小節構建的特征金字塔特征圖,將每層特征圖上特征點用于檢測小文字塊和文字塊連接關系。如圖8,連接關系可以分為八種,上、下、左、右、左上、右上、左下、右下,同一層特征圖、或者相鄰層特征圖上的小文字塊都有可能被連接入同一個詞中,換句話說,位置鄰近、并且尺寸接近的文字塊都有可能被預測到同一詞中。
最后基于檢測出的小文字塊以及文字塊連接,組合出文本框(如圖9),具體組合過程如下:
(a)?將所有具有連接關系的小文字塊組合起來,得到若干小文字塊組; (b)?對于每組小文字塊,找到一條直線能最好的擬合組內所有小文字塊中心點; (c)?將組內所有小文字塊的中心點投影到該直線上,找出距離最遠的兩個中心點A和B; (d)?最終文字框中心點為(A+B)/2,方向為直線斜率,寬度為A,B兩點直線距離加上A,B兩點的平均寬度,高度為所有小文字塊的平均高度。
實驗及應用
我們在兩個公開數據集上(ICDAR2013,ICDAR2015)對方法進行評測。其中ICDAR2013數據集,訓練圖片229張,測試圖片233張;ICDAR2015數據集,訓練圖片1000張,測試圖片500張,它們都來自于自然場景下相機拍攝的圖片。
(1)我們首先對比了擴大高層特征圖與不擴大高層特征圖的性能比較,并在基礎上對比加入特征金字塔后的性能比較,在ICDAR2015數據集上實驗,結果如表1:
“baseline”方法是ssd框架+預測文字片段及片段之間連接關系模塊,“擴大高層特征圖”是在baseline方法基礎上對高層特征圖進行擴大,“金字塔+擴大高層特征圖”是在baseline方法基礎上對高層特征圖進行擴大 并且加入特征金字塔。從表1中不難發現,擴大高層特征圖可以帶來精度和召回的提升,尤其是召回有近3個點的提升(73.4->76.3),這很好理解,因為更大的特征圖產生更多的特征點以及預測結果;在此基礎上再加入金字塔機制,精度獲得顯著提升,說明金字塔結構極大增強低層特征判別能力。
(2)我們也和其他方法也做了比較,具體見表2和表3:
從上表中可以看出,我們的方法在時間和精度上取得很好的權衡。在ICDAR2015數據集上,雖然性能不及PixelLink,但是FPS要遠高于它;而相比TextBoxes++,雖然FPS略低于它,但是精度更高。圖10給出一些文字定位結果示例。
(3)此外,本方法也落地應用于實際業務場景菜單識別中。菜單上文字通常較小、較密,菜名文字可長可短,以及由于拍攝角度導致文字方向傾斜等。如圖11所示,方法能很好的解決以上問題(小文字、密集文字行、長文本、不同方向);并且在500張真實商家菜單圖片上進行評測,相比SegLink方法,性能明顯提升(近5個點提升)。
圖 11 菜單文字定位結果示意圖
結論
本文我們提出了一個高效的場景文本檢測框架。針對文字特點,我們擴大高層特征圖尺寸并構建了一個特征金字塔,以更適用于不同比例文本,同時通過檢測文本片段和片段連接關系來處理長文本和定向文本。實驗結果表明該框架快速且準確,在ICDAR2013和ICDAR2015數據集上獲得了不錯結果,同時應用到公司實際業務場景菜單識別上,獲得明顯性能提升。下一步,受實例分割的方法PixelLink [4]的啟發,我們也考慮將文本片段進一步細化到像素級,同時融合檢測和分割方法各自優缺點,構建聯合檢測和分割的文字定位框架。
參考文獻
- Tsung-Yi Lin, Piotr Dolla?r, Ross Girshick, Kaiming He, Bharath Hariharan, Serge Belongie. “Feature Pyramid Networks for Object Detection.” arXiv preprint. arXiv: 1612.03144, 2017.
- J. Long, E. Shelhamer, and T. Darrell. “Fully convolutional networks for semantic segmentation.” In CVPR, 2015.
- M. Liao, B. Shi, and X. Bai. “Textboxes++: A single-shot oriented scene text detector.” IEEE Trans. on Image Processing, vol. 27, no. 8, 2018.
- D. Deng, H. Liu, X. Li, and D. Cai. “Pixellink: Detecting scene text via instance segmentation.” In AAAI, pages 6773– 6780, 2018.
作者簡介
劉曦,美團視覺圖像中心文字識別組算法專家。
招聘信息
美團視覺圖像中心文字識別組:針對美團各項業務如商家入駐資質審核、網頁信息合規審核等需求,對證照、票據、菜單、網圖等圖片類型開展文字識別研發工作。利用高性能文字識別功能,幫助業務方和商家實現自動審核 、自動錄入,顯著提升人效、降低成本,改善體驗。
歡迎計算機視覺相關及相關領域小伙伴加入我們,簡歷可發郵件至 tech@meituan.com(郵件標題注明:美團視覺圖像中心文字識別組)。
總結
以上是生活随笔為你收集整理的ICDAR 2019论文:自然场景文字定位技术详解的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深度学习在文本领域的应用
- 下一篇: sysbench在美团点评中的应用