Python使用Tabula提取PDF表格數據

今天遇到一個批量讀取pdf文件中表格數據的需求,樣式大體是以下這樣: python讀取PDF無非就是三種方式(我所瞭解的),pdfminer、pdf2htmlEX 和 Tabula。綜合考慮後,選擇了最後一種。下面對三種方式分別介紹: pdfminer 該方式從網上搜索的結果是,可以提取pdf文本數據,但是提取後表格信息就亂了。所以本人沒有親自實驗,就果斷放棄了實驗該方法。如果只是提取pdf裏面的
相關文章
相關標籤/搜索