PDF信息抽取工具(PDFConverter)

簡介 目前,PDF已成爲電子文檔發行和數字化信息傳播的一個標 準,其廣泛應用於學術界的交流以及各類公告的發行。如何從非結構化的PDF文檔中抽取結構化數據是知識圖譜領域所面臨的一大 挑戰。本項目利用Adobe公司開發的 Acrobat DC SDK對PDF進行格式 轉換,從半結構化的中間文件進行信息抽取。相比已有方法, Acrobat導出的中間文件保存了更完整更準確的表格和文本段落信 息,能應用於不
相關文章
相關標籤/搜索