圖片內容轉文字用Java怎麼實現?

點擊左上角藍字,關注「亂敲代碼」html

專一分享國外最新技術內容java

1.1 介紹

開發具備必定價值的符號是人類特有的特徵。對於人們來講識別這些符號和理解圖片上的文字是很是正常的事情。與計算機那樣去抓取文字不一樣,咱們徹底是基於視覺的本能去閱讀它們。web

另外一方面,計算機的工做須要具體的和有組織的內容。它們須要數字化的表示,而不是圖形化的。spring

有時候,這是不可能的。有時,咱們但願自動化的完成用雙手從圖像重寫文本的任務。數組

針對這些任務,光學字符識別(OCR)被設計成一種容許計算機以文本形式「閱讀」圖形化內容的方法,和人類工做的方式類似。雖然這些系統相對準確,但仍然可能有至關大的誤差。即使如此,修復系統的錯誤結果也遠比手工從頭開始要更加容易和快速。微信

就像全部的系統同樣,本質上是類似的,光學字符識別軟件在準備好的數據集上進行訓練,這些數據集提供了足夠多的數據用來幫助學習字符間的差別。若是咱們想讓結果更加準確,那麼這些軟件如何學習也是很是重要的話題,不過這將是另一篇文章的內容了。網絡

與其從新造輪或者想出一個很是複雜(但有用)的解決方案,不如咱們先坐下來看看已有的解決方案。app

1.2 Tesseract

科技巨頭 Google 一直在開發一個 OCR 引擎 Tesseract ,它從最初誕生到如今已有數十年的歷史。它爲許多語言提供了API,不過咱們將專一於 Tesseract 的 Java API 。編輯器

很容易使用 Tesseract 來實現一個簡單的功能。它主要用於讀取計算機在黑白圖片上生成的文字,而且結果的準確度較好。但這不是針對真實世界的文本。spring-boot

對於現實世界中,咱們最好使用像谷歌 Vision 這樣的更高級的光學字符識別軟件,這將在另外一篇文章中討論。

1.2.1 Maven依賴

咱們只須要簡單的添加一個依賴,就能夠將引擎引入到咱們的項目:

<dependency> <groupId>net.sourceforge.tess4j</groupId> <artifactId>tess4j</artifactId> <version>3.2.1</version></dependency>

1.2.2 光學字符識別

使用 Tesseract 絕不費力:

Tesseract tesseract = new Tesseract();tesseract.setDatapath("E://DataScience//tessdata");System.out.println(tesseract.doOCR(new File("...")));

咱們先實例化一個 Tesseract 實例,而後爲已訓練好的 LSTM (長短時間記憶網絡)模型設置數據路徑。

數據能夠從官方GitHub賬號處下載。

而後咱們調用 doOCR() 方法,該方法接受一個文件參數而且返回一個字符串——提取的內容。

讓咱們給它提供一張有着大而清晰的黑色字符的白色背景圖片:

提供這樣一張圖片會得到完美的結果:

Optical Character Recognition in Java is made easy with the help of Tesseract'

不過這張圖片掃描起來過於簡單了。它已經被歸一化,並且有高分辨率和一致的字體。

讓咱們來試試在紙上手寫一些字符並將該圖片提供給應用程序,這將會發生些什麼呢:

咱們能夠當即看到結果的改變:

A411「, written texz: is different {mm compatar generated but

有一些單詞十分準確,而且你能夠很輕鬆的辨認出 「written text is different from computer generated」 ,可是第一個和最後一個單詞差得有點多。

如今,爲了讓程序使用起來更簡單,咱們把它轉換成一個十分簡單的 Spring Boot 應用程序,用更加溫馨的圖形化界面來展現結果。

1.3 實現

1.3.1 Spring Boot應用程序

首先,從使用Spring Initializr建立咱們的項目開始。它包含spring-boot-starter-webspring-boot-starter-thymeleaf依賴。而後咱們手動導入Tesseract:

1.3.2 控制器

該應用程序只須要一個控制器,它將爲咱們提供兩個頁面的展現、處理圖片上傳和光學字符識別功能:

@Controllerpublic class FileUploadController {
@RequestMapping("/") public String index() { return "upload"; }
@RequestMapping(value = "/upload", method = RequestMethod.POST) public RedirectView singleFileUpload(@RequestParam("file") MultipartFile file, RedirectAttributes redirectAttributes, Model model) throws IOException, TesseractException {
byte[] bytes = file.getBytes(); Path path = Paths.get("E://simpleocr//src//main//resources//static//" + file.getOriginalFilename()); Files.write(path, bytes);
File convFile = convert(file); Tesseract tesseract = new Tesseract(); tesseract.setDatapath("E://DataScience//tessdata"); String text = tesseract.doOCR(convFile); redirectAttributes.addFlashAttribute("file", file); redirectAttributes.addFlashAttribute("text", text); return new RedirectView("result"); }
@RequestMapping("/result") public String result() { return "result"; }
public static File convert(MultipartFile file) throws IOException { File convFile = new File(file.getOriginalFilename()); convFile.createNewFile(); FileOutputStream fos = new FileOutputStream(convFile); fos.write(file.getBytes()); fos.close(); return convFile; }}

Tesseract 能夠和Java的 File 類一塊兒工做,可是不支持表單上傳的 MultipartFile 類。爲了便於處理,咱們添加了一個簡單的 convert() 方法,它將 MultipartFile 對象轉換成一個普通的 File 對象。

一旦咱們利用 Tesseract 提取出了文本,咱們只需將該文本和掃描的圖像一塊兒添加到模型當中,而後附加到重定向的展現頁面 - result

1.3.3 展現頁面

如今,讓咱們定義一個包含簡單文件上傳表單的展現頁面:

<html><body><h1>Upload a file for OCR:</h1>
<form method="POST" action="/upload" enctype="multipart/form-data"> <input type="file" name="file" /><br/><br/> <input type="submit" value="Submit" /></form>
</body></html>

以及一個結果頁面:

<html xmlns:th="http://www.thymeleaf.org"><body>
<h1>Extracted Content:</h1><h2>><span th:text="${text}"></span></h2>
<p>From the image:</p><img th:src="'/' + ${file.getOriginalFilename()}"/></body></html>

運行這個應用程序將會有一個簡單的交互界面迎接咱們

添加一個圖片並提交它,屏幕上的結果將會包含提取的文本和上傳的圖片:

成功了!

1.4 結論

利用谷歌的 Tesseract 引擎,咱們搭建了一個十分簡單的應用,它接受從表單提交來的圖片,從中提取文本內容,最後將結果和圖片一塊兒返回給咱們。

因爲咱們只使用了 Tesseract 有限的功能,因此這不是一個特別有用的應用程序。並且該應用程序對於演示目的以外的任何其餘用途都過於簡單,可是它能夠做爲一個有趣的工具來實現和測試。

當你想把內容數字化時,光學字符識別能夠很快上手,特別是針對文檔。他們很容易被掃描,而且提取的內容準確度也較好。固然,爲了不潛在的錯誤,對結果文檔進行校對老是明智的。 

SpringBoot優雅地配置日誌

Java內存模型詳解(一)

如何使用Arrays工具類操做數組





本文分享自微信公衆號 - 亂敲代碼(lqcoder)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。

相關文章
相關標籤/搜索