【論文閱讀】Learning to Extract Semantic Structure from Documents  Using Multimodal Fully Convolutional Ne

【概要】     我們展示了一種端到端的、多模式的FCN網絡來從文檔圖像中抽取語義結構。我們把文檔語義結構抽取看做是一個像素級別的分割任務,並且提出了一種不僅僅像傳統的頁面分割任務那樣基於他們的視覺外觀,而且基於潛在的文本內容的統一模型。進一步的,我們提出了一個有效合成文檔生成過程,用來爲我們的網絡生成預訓練數據。一旦網絡在大量合成文檔上訓練過以後,我們在未標註的真實文檔上用半監督的方法精確調整網
相關文章
相關標籤/搜索