用xpdf和pdfbox來處理中文PDF文檔及其比較

時間 2021-01-11

標籤 C++ C# Adobe 欄目 C&C++ 简体版

原文原文鏈接

我在以前的項目中使用的是pdfbox，在讀取中文文檔時可以讀出大部分的文字，但是在數字、分頁等地方還是不可避免的出現亂碼。於是我在網上搜索，看有沒有什麼解決方法，看到有說法：「PDFBox看起來非常的方便，它的API功能強大。甚至能和Lucene進行無縫的結合。但是它有一個致命的弱點，就是它不支持中文。要提取中文的文本，可以採用另一個非常出色的工具xpdf。」於是我決定自己比較一下這兩種方法處

>>阅读原文<<