如何從pdf文件中提取有用信息

首先,須要學習PDFBox,PDFBox項目中有兩個子項目:FontBox和JempBox。FontBox是一個處理PDF字體的Java類庫,JempBox是一個處理XMP元數據的Java類庫。 PDF文檔內容流中的數據能夠被當作是操做符和操做數組組成的序列,從實現的角度看,PDF數據是一系列基本對象的集合:數組、布爾型、字典、數字、字符串和二進制流。 PDFBox的主要包介紹參見這位同窗寫的博客
相關文章
相關標籤/搜索