场景文字识别论文阅读
由粗到細的注意力機制
Image-to-Markup Generation with Coarse-to-Fine Attention
圖片的多層卷積網絡+結合了多行循環網絡模型的encoder+基于注意力機制的循環decoder
CNN 輸出 進入 行encoder,生成特征灰色網格,虛線指出token的中心,藍色是粗粒度注意力選出的符號0的支撐集
成就:減少注意力開支
全柵格encoder:不一定從左到右
由一個解決image captioning的模型改編而來,但添加了row encoder
模型
具體實現
1 CNN卷積
多層卷積穿插最大池化,沒有使用最終全連接(因為想使用CNN特征的局部信息,視覺注意力)
2 row encoder
傳統使用CTC(分割字母,得到剪枝的所有可能結果并預測概率)
對OCR至關重要,定位相對位置
使用的LSTM模型(RNN的一種)
位置嵌入:可訓練的初始隱藏層,捕捉列信息【?】
3 decoder
在[decoder RNN]上層有[條件語言模型]
計算 P(預測值 | 過去decoder結果、特征V) = 激活函數(學習到的矩陣Ot)
Ot = 激活函數 (學到的矩陣(RNN歷史記錄向量*ct))
ct:上下文注意力。上下文:對源的特征的期望
4 注意力機制
標準、分類、由粗到細
基礎 連接主義文本提議網絡
Detecting Text in Natural Image with Connectionist Text Proposal Network
ECCV 2016
https://github.com/eragonruan/text-detection-ctpn
目標
方法
- CPTR網絡:由卷積網絡、特征映射圖組成。卷積采用由VGG16(遷移學習)網絡結構
- VGG16使用的層:
- RNN:帶反饋的、可以利用先前知識的CNN,利用文本序列性特性
- 層使用的神經元:LSVM:可以學習長期依賴信息的RNN。只有一些少量的線性交互
- 雙向循環神經網絡(BRNN):不僅考慮過去知識,還考慮未來
- RNN:帶反饋的、可以利用先前知識的CNN,利用文本序列性特性
- 非極大值抑制
結果
CTPN的計算效率為0.14s每張圖像
分割 實例分割檢測場景文本
PixelLink: Detecting Scene Text via Instance Segmentation
AAAI 2018
https://github.com/ZJULearning/pixel_link
VGG16通過像素二分類劃分,直接提取邊框
扭曲文字識別
TextSnake A Flexible Representation for Detecting Text of Arbitrary Shapes
ECCV2018
https://github.com/princewang1994/TextSnake.pytorch
論文介紹詳細,甚至包括網絡調參細節、batch設計和GPU設計等
目標
識別以曲線方式分布的文字
方法
數據
該文提出了一種新的文字區域表示方法,沒有現成數據集,需要自己制作標簽(區域和中心線)
損失函數
損失 = 區域和中心線的分類損失(交叉熵,類似極大似然,取概率最大的類分類) + r sin cos等幾何屬性的回歸損失(smooth1Loss,一個更優的均方誤差函數)
評價指標
評價指標有準確率(Precision)、召回率(Recall)、F值(F-Measure)
召回率:度量有多個正例被分為正例
精度:表示被分為正例的示例中實際為正例的比例。
F:兩者調和 當F1較高時則能說明試驗方法比較有效
語義增強
SEED Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition
CVPR2020
https://github.com/Pay20Y/SEED
目標
識別出單詞并進行矯正,應對諸如圖像模糊、光照不均、字符不完整等諸多挑戰
發展歷程
步驟
從一個預先訓練好的語言模型中獲得詞語嵌入,并計算訓練過程中語義信息和詞語嵌入之間的損失。通過這種方式,語義信息包含更豐富的語義,
然后預測的語義信息被用來指導解碼過程。因此,解碼過程可以被限制在一個語義空間內,識別性能會更好
1)編碼器包括 CNN骨干和 RNN 用于提取視覺特征;
2)語義模塊用于從視覺特征中預測語義信息;
3)預訓練語言模型用于監督語義模塊預測的語義信息;
4)解碼器包括 RNN 和注意機制用于生成識別結果。
模型
https://cloud.tencent.com/developer/article/1495100
超分辨率
Scene Text Image Super-Resolution via Parallelly Contextual Attention Network
ACMMM 2021
https://github.com/Vill-Lab/PCAN
SR,圖片超分辨率super resolution
數據
該論文的主要工作是構建了新的數據集:真實的場景文本SR數據集,稱為TextZoom。它包含一對真實的低分辨率和高分辨率圖像
模型
對SRResNet模型進行修改
并行的上下文注意網絡,主要是改變了RNN的基本單位,平行的上下文關聯注意塊(PCAB)
直觀地說,水平方向建模用于構建字符對字符
的依賴關系,而垂直方向建模用于字符內的紋理上下文。
總結
以上是生活随笔為你收集整理的场景文字识别论文阅读的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 华为鸿蒙系统手机会卡吗,鸿蒙系统的手机,
- 下一篇: 我的理想,我的奋斗目标