序言:咱們在讀一些PDF版書籍的時候,若是PDF中不是圖片,作起讀書筆記的還好;若是PDF中的是圖片的話,根本沒法編輯,作起筆記來,仍是很痛苦的。我是遇到過了。咱們搞技術的,固然得本身學着解決如今的痛點。java
爲了避免重複造輪子,固然得看看如今市面上是否有已經實現過的,若是有,那天然是拿來即用。apache
首先,說說一些在線版的PDF圖片轉文字,對文件大小有限制爲2M(彷佛有不少的文件處理都是限制在這個數),超過了便要收費了。json
第二,那就是WPS的PDF圖片轉文字了。別說大小限制了,直接是收費。 數組
###2.1 百度AI平臺 獲取AppID, API Key, Secret Keybash
該平臺限制調用次數, 做爲我的開發者來講,基本上是夠用了。 微信
Java SDK文檔使用說明: ai.baidu.com/docs#/OCR-J…網絡
不清楚的,能夠去看文檔。app
###2.2 代碼實現maven
邏輯思路: 讀取PDF文件,而後讀取PDF中包含的圖片,將圖片傳給百度AI平臺去進行識別,返回結果解析。工具
省略....(相信你們都會哈)🙈🙉
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>com.example</groupId>
<artifactId>demo</artifactId>
<version>0.0.1-SNAPSHOT</version>
<name>demo</name>
<description>
Demo project for pdf圖片轉換文字
喜歡的微信關注公衆號:Java技術乾貨
</description>
<properties>
<java.version>1.8</java.version>
</properties>
<dependencies>
<dependency><!--百度AI SDK-->
<groupId>com.baidu.aip</groupId>
<artifactId>java-sdk</artifactId>
<version>4.8.0</version>
</dependency>
<dependency><!--PDF操做工具包-->
<groupId>org.apache.pdfbox</groupId>
<artifactId>pdfbox-app</artifactId>
<version>2.0.16</version>
</dependency>
</dependencies>
</project>
複製代碼
package com.example.demo;
import com.baidu.aip.ocr.AipOcr;
import org.apache.pdfbox.cos.COSName;
import org.apache.pdfbox.pdmodel.*;
import org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject;
import org.apache.pdfbox.text.PDFTextStripper;
import org.json.JSONObject;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.*;
import java.nio.ByteBuffer;
import java.text.SimpleDateFormat;
import java.util.*;
import java.util.concurrent.atomic.AtomicInteger;
public class DemoApplication {
//設置APPID/AK/SK
public static final String APP_ID = "你的APP_ID";
public static final String API_KEY = "你的API_KEY";
public static final String SECRET_KEY = "你的SECRET_KEY ";
public static final String DATE_FORMAT = "yyyy-MM-dd HH:mm:ss";
/**
* 解析pdf文檔信息
*
* @param pdfPath pdf文檔路徑
* @throws Exception
*/
public static void pdfParse(String pdfPath) throws Exception {
InputStream input = null;
File pdfFile = new File(pdfPath);
PDDocument document = null;
try {
input = new FileInputStream(pdfFile);
//加載 pdf 文檔
document = PDDocument.load(input);
/** 文檔屬性信息 **/
PDDocumentInformation info = document.getDocumentInformation();
System.out.println("標題:" + info.getTitle());
System.out.println("主題:" + info.getSubject());
System.out.println("做者:" + info.getAuthor());
System.out.println("關鍵字:" + info.getKeywords());
System.out.println("應用程序:" + info.getCreator());
System.out.println("pdf 製做程序:" + info.getProducer());
System.out.println("做者:" + info.getTrapped());
System.out.println("建立時間:" + dateFormat(info.getCreationDate()));
System.out.println("修改時間:" + dateFormat(info.getModificationDate()));
//獲取內容信息
PDFTextStripper pts = new PDFTextStripper();
String content = pts.getText(document);
System.out.println("內容:" + content);
/** 文檔頁面信息 **/
PDDocumentCatalog cata = document.getDocumentCatalog();
PDPageTree pages = cata.getPages();
System.out.println(pages.getCount());
int count = 1;
// 初始化一個AipOcr
AipOcr client = new AipOcr(APP_ID, API_KEY, SECRET_KEY);
// 可選:設置網絡鏈接參數
client.setConnectionTimeoutInMillis(2000);
client.setSocketTimeoutInMillis(60000);
for (int i = 0; i < pages.getCount(); i++) {
PDPage page = (PDPage) pages.get(i);
if (null != page) {
PDResources res = page.getResources();
Iterable xobjects = res.getXObjectNames();
if(xobjects != null){
Iterator imageIter = xobjects.iterator();
while(imageIter.hasNext()){
COSName key = (COSName) imageIter.next();
if (res.isImageXObject(key)) {
try {
PDImageXObject image = (PDImageXObject) res.getXObject(key);
BufferedImage bimage = image.getImage();
// 將BufferImage轉換成字節數組
ByteArrayOutputStream out =new ByteArrayOutputStream();
ImageIO.write(bimage,"png",out);//png 爲要保存的圖片格式
byte[] barray = out.toByteArray();
out.close();
// 發送圖片識別請求
JSONObject json = client.basicGeneral(barray, new HashMap<String, String>());
System.out.println(json.toString(2));
count++;
System.out.println(count);
} catch (Exception e) {
}
}
}
}
}
}
} catch (Exception e) {
throw e;
} finally {
if (null != input)
input.close();
if (null != document)
document.close();
}
}
/**
* 獲取格式化後的時間信息
*
* @param dar 時間信息
* @return
* @throws Exception
*/
public static String dateFormat(Calendar calendar) throws Exception {
if (null == calendar)
return null;
String date = null;
try {
String pattern = DATE_FORMAT;
SimpleDateFormat format = new SimpleDateFormat(pattern);
date = format.format(calendar.getTime());
} catch (Exception e) {
throw e;
}
return date == null ? "" : date;
}
public static void main(String[] args) throws Exception {
// 讀取pdf文件
String path = "C:\\Users\\fl\\Desktop\\a.pdf";
pdfParse(path);
}
}
複製代碼
識別前:
識別後:
識別前:
識別後:
花一兩個小時,把這一起的功能熟悉了一下,看了一下結果仍是很滿意的,雖然缺乏了一些格式。可是可以把文字識別出來,就避免了手動再去敲一次。提升了讀書作筆記的效率。
喜歡的朋友們能夠點個關注或喜歡💝