LayoutLM——文本與佈局的預訓練用於文檔圖像理解

摘要: 預訓練技術近年來在多種NPL任務中取得了廣泛的成功。儘管廣泛的NPL應用的預訓練模型,其大多聚焦於文本級別的操作,而忽略了佈局與風格信息,這對文檔圖像的理解至關重要。該篇論文提出了LayoutLM來聯合建模掃描文檔圖像的文本與佈局信息關係,這將有益於真實世界中大量的圖像理解任務,如文檔圖像的信息提取。此外,可以利用圖像特徵合併文字的視覺信息到LayoutLM中。這是第一次在單獨的文檔級預訓
相關文章
相關標籤/搜索