

  • 提取文本,包括Unicode字符。
  • 和Jakarta Lucene等文本搜索引擎的整合過程十分簡單。
  • 加密/解密PDF文檔。
  • 從PDF和XFDF格式中導入或導出表單數據。
  • 向已有PDF文檔中追加內容。
  • 將一個PDF文檔切分爲多個文檔。
  • 覆蓋PDF文檔。





PDDocument document =
PDDocument.load( "./test.pdf" );



  這是一個信息展示時代(an information retrieval age),無論信息存放在哪一種媒體中,應用程序都應該支持檢索和索引。對信息進行組織和分類從而造成可檢索的格式是很關鍵的。這對於文本文檔和HTML文檔來講是很簡單的,但PDF文檔包含大量的結構和元信息,提取文檔內容決不是一件簡單的事情。PDF語言和Postscript類似,兩者中的對象都是做爲矢量繪製在頁面的某些位置。例如:數組

  1. /Helv 12 Tf
  2. 0 13.0847 Td
  3. (Hello World) Tj

  上面的指令將字體設爲12號的Helvetica,移到下一行而後打印「Hello World」。這些命令流一般是通過壓縮的,文字在屏幕上的顯示順序並不必定是文件中的字符出現順序。所以,你有時沒法直接從原始PDF文檔中提取字符串。然而,PDFBox成熟的文本提取算法使得開發人員能夠提取文檔內容,就像在閱讀器中呈現的那樣。
  Lucene是Apache Jakarta項目的子項目,它是一個流行的源代碼開放的搜索引擎庫。開發人員可使用Lucene來建立索引,並基於該索引對大量的文本內容進行復雜的檢索。Lucene只支持文本內容的檢索,因此開發人員須要將其餘形式的數據轉換爲文本形式才能使用Lucene。例如,Microsoft Word和StarOffice文檔都必須先轉換爲文本形式才能添加到Lucene索引中。

Document doc = LucenePDFDocument.getDocument( file );





  • 打印
  • 修改內容
  • 提取內容

  PDF文檔安全的討論不在本文範疇以內,有興趣的讀者能夠參考PDF規範的相關部分。PDF文檔的安全模型是可插拔式的(pluggable),你能夠在加密文檔時使用不一樣的安全處理器(security handler)。對本文而言,PDFBox支持標準的安全處理器,它是大多數PDF文檔所使用的。


//load the document
PDDocument pdf =
PDDocument.load( "test.pdf");
//create the encryption options
PDStandardEncryption encryptionOptions =
new PDStandardEncryption();
encryptionOptions.setCanPrint( false);
encryptionOptions );
//encrypt the document
pdf.encrypt( "master", null);
//save the encrypted document
//to the file system
pdf.save( "test-output.pdf");



  Employment Eligibility Verification是一個大多數人都熟悉的表單,它又叫作「I-9表單」,參見:http://uscis.gov/graphics/formsfee/forms/files/i-9.pdf

  1. java org.pdfbox.examples.fdf.PrintFields i-9.pdf


  1. java org.pdfbox.examples.fdf.SetField i-9.pdf NAME1 Smith

  在Acrobat中打開這個PDF文檔你就會看到"Last Name"域已被填寫了。你也可使用如下代碼來完成相同的操做:


PDDocument pdf =
PDDocument.load( "i-9.pdf");
PDDocumentCatalog docCatalog =
PDAcroForm acroForm =
PDField field =
acroForm.getField( "NAME1");
field.setValue( "Smith");
pdf.save( "i-9-copy.pdf" );




PDField field =
acroForm.getField( "NAME1");
System .out.println(
"First Name=" field.getValue() );


  Acrobat支持將表單數據導入或導出到一個特定的文件格式「表單數據格式」(Forms Data Format)。這種文件有兩類:FDF和XFDF。FDF文件存放表單數據的格式與PDF相同,而XFDF則以XML格式存放表單數據。PDFBox在一個類中處理FDF和XFDF:FDFDocument。下面的代碼片段演示瞭如何從上面的I-9表單導出FDF數據:


PDDocument pdf =
PDDocument.load( "i-9.pdf");
PDDocumentCatalog docCatalog =
PDAcroForm acroForm =
FDFDocument fdf = acroForm.exportFDF();
fdf.save( "exportedData.fdf" );



  1. 使用Acrobat或其餘可視化工具建立PDF表單模版
  2. 記下每一個須要的(desirable)表單域的名稱
  3. 將模版存放在應用程序能夠訪問到的地方
  4. 當PDF被請求時,使用PDFBox解析PDF模版
  5. 填充指定的表單域
  6. 將填充結果(PDF)返回給用戶




 1     public void createHelloPDF() {
 2         PDDocument doc = null;
 3         PDPage page = null;
 5         try {
 6             doc = new PDDocument();
 7             page = new PDPage();
 8             doc.addPage(page);
 9             PDFont font = PDType1Font.HELVETICA_BOLD;
10             PDPageContentStream content = new PDPageContentStream(doc, page);
11             content.beginText();
12             content.setFont(font, 12);
13             content.moveTextPositionByAmount(100, 700);
14             content.drawString("hello");
16             content.endText();
17             content.close();
18             doc.save("F:\\java56班\\eclipse-SDK-4.2-win32\\pdfwithText.pdf");
19             doc.close();
20         } catch (Exception e) {
21             System.out.println(e);
22         }
23     }



 1     public void readPDF() {
 2         PDDocument helloDocument = null;
 3         try {
 4             helloDocument = PDDocument.load(new File(
 5                     "F:\\java56班\\eclipse-SDK-4.2-win32\\pdfwithText.pdf"));
 6             PDFTextStripper textStripper = new PDFTextStripper("GBK");
 7             System.out.println(textStripper.getText(helloDocument));
 9             helloDocument.close();
10         } catch (IOException e) {
11             // TODO Auto-generated catch block
12             e.printStackTrace();
13         }
14     }



  PDF規範共有1172頁之多,其實現的確是一浩大工程。一樣,PDFBox發佈版中說它「正在進行中」,新的功能會慢慢地添加上去。它的主要弱點是從零開始建立PDF文檔。然而,有一些源碼開放的Java項目可用於填補這個缺口。例如,Apache FOP項目支持從特殊的XML文檔生成PDF,這個XML文檔描述了要生成的PDF文檔。此外,iText提供一個高層API用於建立表格和列表。
  PDFBox的下一個版本將支持新的PDF 1.5 對象流和交叉引用流。而後將提供內嵌字體和圖像的支持。在PDFBox的努力下,Java應用程序中的PDF技術有望獲得充分的支持。


  PDFBox: www.pdfbox.org   Apache FOP: http://xml.apache.org/fop/   iText: www.lowagie.com/iText/   PDF Reference: http://partners.adobe.com/asn/tech/pdf/specifications.jsp   Jakarta Lucene: http://jakarta.spache.org/lucene/
