用xpdf和pdfbox來處理中文PDF文檔及其比較

我在以前的項目中使用的是pdfbox,在讀取中文文檔時可以讀出大部分的文字,但是在數字、分頁等地方還是不可避免的出現亂碼。於是我在網上搜索,看有沒有什麼解決方法,看到有說法: 「PDFBox看起來非常的方便,它的API功能強大。甚至能和Lucene進行無縫的結合。但是它有一個致命的弱點,就是它不支持中文。要提取中文的文本,可以採用另一個非常出色的工具xpdf。」 於是我決定自己比較一下這兩種方法處
相關文章
相關標籤/搜索