LayoutLM——文本與佈局的預訓練用於文檔圖像理解

時間 2021-01-22

原文原文鏈接

摘要：預訓練技術近年來在多種NPL任務中取得了廣泛的成功。儘管廣泛的NPL應用的預訓練模型，其大多聚焦於文本級別的操作，而忽略了佈局與風格信息，這對文檔圖像的理解至關重要。該篇論文提出了LayoutLM來聯合建模掃描文檔圖像的文本與佈局信息關係，這將有益於真實世界中大量的圖像理解任務，如文檔圖像的信息提取。此外，可以利用圖像特徵合併文字的視覺信息到LayoutLM中。這是第一次在單獨的文檔級預訓

>>阅读原文<<