表格數據的識別與提取

(1)在數字科學文章中,表格是以結構化方式呈現信息的常見形式。然而,表格佈局的大變化和數字文檔格式中缺乏結構信息對信息檢索和相關任務提出了重大挑戰。下文中,提出了兩種基於無監督學習技術和啓發式的表格識別方法,它們可以自動檢測存儲爲PDF的文章中表格的位置和結構。對於兩種算法,表區域檢測算法首先從一組標記的文本塊中識別各個表的邊界框。在第二步中,兩個不同的表格結構檢測方法從包含在這些表區域中的一組單
相關文章
相關標籤/搜索