Python 解析財務報表中的表格數據(pdf to tables)

解析PDF經常使用組件(PdfBox、iText、Tika等)都沒法將表格數據解析成有規則的格式。解析後格式基本是TEXT、XHTML等致使處理表格數據變的很是複雜,基本須要全枚舉+正則才能處理個70-80%。最近看到Python能夠解析表格因而嘗試了一下,不過要想讓數據可用,還存在不少問題待解決。 PDF文件截圖 java Tika解析PDF文件 一、TEXT格式web Tika tika =
相關文章
相關標籤/搜索