(7)PDFMiner提取PDF文本

PDFMiner是一個能夠從PDF文檔中提取信息的工具。與其餘PDF相關的工具不一樣,它注重的徹底是獲取和分析文本數據。PDFMiner容許你獲取某一頁中文本的準確位置和一些諸如字體、行數的信息。它包括一個PDF轉換器,能夠把PDF文件轉換成HTML等格式。它還有一個擴展的PDF解析器,能夠用於除文本分析之外的其餘用途。 PDFMiner內置兩個好用的工具:pdf2txt.py和dumppdf.p
相關文章
相關標籤/搜索