摘要:在文檔圖像中提取關鍵信息在自動化辦公應用中相當重要。傳統基於模板匹配或者規則的方法,在通用性方面、未見過版式模板數據方面,效果都很差;爲此,本文提出了一種端到端的空間多模態圖推理模型(SDMG-R),能有效的從未見過的模板數據中提取關鍵信息,而且通用性更好。git
本文分享自華爲雲社區《論文解讀系列十二:SDMG-R結構化提取—無限版式小票場景應用》,做者:一笑傾城 。github
源碼:github.com/open-mmlab/…markdown
在文檔圖像中提取關鍵信息在辦公自動化應用中相當重要,好比常見的存檔文件、收據小票、信用表單等數據場景快速自動化歸檔、合規性檢查等等。傳統基於模板匹配或者規則的方法,主要利用的固定版式模板數據的佈局、位置座標信息、內容規則等,這些信息侷限性很強,所以在通用性方面、未見過版式模板數據方面,效果都很差。爲此,本文提出了一種端到端的空間多模態圖推理模型(SDMG-R),能充分利用檢測文本區域的位置佈局、語義、視覺信息,相比以前獲取的信息的更充分豐富,所以能有效的從未見過的模板數據中提取關鍵信息,而且通用性更好。網絡
在以前的關鍵信息抽取任務中,經常使用的數據集大部分是 SROIE、IEHHR,可是他們訓練集、測試集有不少公共模板版式,所以不太適合去評估或驗證通用信息提取模型的通用能力;基於以上緣由,本文構建一套新的關鍵信息抽取任務的數據集,並命名爲 WildReceipt:由 25 個類別組成,大概有 50000 個文本區域,數據量是 SROIE 的兩倍以上,詳細信息以下表格 2-1 所示:函數
表 2-1 關鍵信息抽取任務數據集oop
本文提出的 SDMG-R 在 SROIE 數據集和 WildReceipt 數據集上都得到比較好的效果,並優於以前的方法模型。本文做者還去作了相關消融實驗,並驗證了本文提出的空間關係信息和多模態特徵都對關鍵信息提取有着很是重要的影響。具體創新及貢獻以下:佈局
提出了一種有效的空間多模態圖推理網絡(SDMG-R),能充分利用文本區域的語義、視覺兩個維度的空間特徵關係信息;測試
構建了一套基準數據集(WildReceipt),是 SROIE 數據量的兩倍,並且訓練集版式模板和測試集版式模板交叉不多,所以能夠用來作些通用關鍵信息抽取任務的探索研究;編碼
本文利用了視覺、語義特徵,如何利用好二者數據,本文作了相關驗證:特徵融合方法的有效性(CONCAT、線性求和、克羅內克積),最終結果克羅內克積比其餘兩種特徵融合方法高兩個點左右,以下表格 2-2 所示:spa
表 2-2 特徵融合方法對比結果
SDMG-R 模型整個網絡結構以下圖 3-1 所示,模型輸入數據由圖片、對應文本檢測座標區域、對應文本區域的文本內容,視覺特徵經過 Unet 及 ROI-Pooling 進行提取,語義特徵經過 Bi-LSTM 進行提取,而後多模態特徵經過克羅內克積進行融合語義、視覺特徵,而後再輸入到空間多模態推理模型提取最終的節點特徵,最後經過分類模塊進行多分類任務
圖 3-1 SDMG-R 網絡結構
a. 輸入原始圖片,resize 到固定輸入尺寸(本文 512x512);
b. 輸入到 Unet,使用 Unet 做爲視覺特徵提取器,獲取獲得 CNN 最後一層的特徵圖;
c. 將輸入尺寸的文本區域座標()映射到最後一層 CNN 特徵圖,經過 ROI-pooling 方法進行特徵提取,獲取對應文本區域圖像的視覺特徵;
a. 首先收集字符集表,本文收集了 91 個長度字符表,涵蓋數字(0-9)、字母(a-z,A-Z)、相關任務的特殊字符集(如「/」, 「n」,「.」, 「$」, 「AC」, 「 」, 「¥」, 「:」, 「-」, 「*」, 「#」等),不在字符表的字符統一標記成「unkown」;
b. 其次,而後將文本字符內容映射到 32 維度的 one-hot 語義輸入的編碼形式;
c. 而後輸入到 Bi-LSTM 模型中,提取 256 維度語義特徵;
a. 多模態特徵融合:經過克羅內克積進行特徵融合,具體公式以下:
最終的節點特徵經過多模態圖推理模型完成,公式以下:
根據圖推理模型獲取節點的特徵,最後輸入到分類模塊,經過多分類任務輸出最終的實體分類結果,損失函數使用的是交叉熵損失,公式以下:
在 SROIE 數據集的結果以下表 4-1 所示:
表 4-1 SROIE 的精度
在 WildReceipt 測試集的結果以下表 4-2 所示:
表 4-2 WildReceipt 的精度