Python使用Tabula提取PDF表格數據

時間 2020-12-30

原文原文鏈接

今天遇到一個批量讀取pdf文件中表格數據的需求，樣式大體是以下這樣： python讀取PDF無非就是三種方式（我所瞭解的），pdfminer、pdf2htmlEX 和 Tabula。綜合考慮後，選擇了最後一種。下面對三種方式分別介紹： pdfminer 該方式從網上搜索的結果是，可以提取pdf文本數據，但是提取後表格信息就亂了。所以本人沒有親自實驗，就果斷放棄了實驗該方法。如果只是提取pdf裏面的

>>阅读原文<<