Tesseract：簡單的Java光學字符識別

時間 2019-11-08

原文原文鏈接

1.1 介紹

開發具備必定價值的符號是人類特有的特徵。對於人們來講識別這些符號和理解圖片上的文字是很是正常的事情。與計算機那樣去抓取文字不一樣，咱們徹底是基於視覺的本能去閱讀它們。html

另外一方面，計算機的工做須要具體的和有組織的內容。它們須要數字化的表示，而不是圖形化的。git

有時候，這是不可能的。有時，咱們但願自動化的完成用雙手從圖像重寫文本的任務。github

針對這些任務，光學字符識別（OCR）被設計成一種容許計算機以文本形式「閱讀」圖形化內容的方法，和人類工做的方式類似。雖然這些系統相對準確，但仍然可能有至關大的誤差。即使如此，修復系統的錯誤結果也遠比手工從頭開始要更加容易和快速。web

就像全部的系統同樣，本質上是類似的，光學字符識別軟件在準備好的數據集上進行訓練，這些數據集提供了足夠多的數據用來幫助學習字符間的差別。若是咱們想讓結果更加準確，那麼這些軟件如何學習也是很是重要的話題，不過這將是另一篇文章的內容了。spring

與其從新造輪或者想出一個很是複雜（但有用）的解決方案，不如咱們先坐下來看看已有的解決方案。網絡

1.2 Tesseract

科技巨頭 Google 一直在開發一個 OCR 引擎 Tesseract ，它從最初誕生到如今已有數十年的歷史。它爲許多語言提供了API，不過咱們將專一於 Tesseract 的 Java API 。app

很容易使用 Tesseract 來實現一個簡單的功能。它主要用於讀取計算機在黑白圖片上生成的文字，而且結果的準確度較好。但這不是針對真實世界的文本。spring-boot

對於現實世界中，咱們最好使用像谷歌 Vision 這樣的更高級的光學字符識別軟件，這將在另外一篇文章中討論。工具

1.2.1 Maven依賴

咱們只須要簡單的添加一個依賴，就能夠將引擎引入到咱們的項目：學習

<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>3.2.1</version>
</dependency>複製代碼

1.2.2 光學字符識別

使用 Tesseract 絕不費力：

Tesseract tesseract = new Tesseract();
tesseract.setDatapath("E://DataScience//tessdata");
System.out.println(tesseract.doOCR(new File("...")));複製代碼

咱們先實例化一個 Tesseract 實例，而後爲已訓練好的 LSTM （長短時間記憶網絡）模型設置數據路徑。

數據能夠從官方GitHub賬號處下載。

而後咱們調用 doOCR() 方法，該方法接受一個文件參數而且返回一個字符串——提取的內容。

讓咱們給它提供一張有着大而清晰的黑色字符的白色背景圖片：

提供這樣一張圖片會得到完美的結果：

Optical Character Recognition in Java is made easy with the help of Tesseract'複製代碼

不過這張圖片掃描起來過於簡單了。它已經被歸一化，並且有高分辨率和一致的字體。

讓咱們來試試在紙上手寫一些字符並將該圖片提供給應用程序，這將會發生些什麼呢：

咱們能夠當即看到結果的改變：

A411「, written texz: is different {mm compatar generated but複製代碼

有一些單詞十分準確，而且你能夠很輕鬆的辨認出「written text is different from computer generated」，可是第一個和最後一個單詞差得有點多。

如今，爲了讓程序使用起來更簡單，咱們把它轉換成一個十分簡單的 Spring Boot 應用程序，用更加溫馨的圖形化界面來展現結果。

1.3 實現

1.3.1 Spring Boot應用程序

首先，從使用Spring Initializr建立咱們的項目開始。它包含spring-boot-starter-web和spring-boot-starter-thymeleaf依賴。而後咱們手動導入Tesseract：

1.3.2 控制器

該應用程序只須要一個控制器，它將爲咱們提供兩個頁面的展現、處理圖片上傳和光學字符識別功能：

@Controller
public class FileUploadController {

    @RequestMapping("/")
    public String index() {
        return "upload";
    }

    @RequestMapping(value = "/upload", method = RequestMethod.POST)
    public RedirectView singleFileUpload(@RequestParam("file") MultipartFile file,
                                   RedirectAttributes redirectAttributes, Model model) throws IOException, TesseractException {

        byte[] bytes = file.getBytes();
        Path path = Paths.get("E://simpleocr//src//main//resources//static//" + file.getOriginalFilename());
        Files.write(path, bytes);

        File convFile = convert(file);
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath("E://DataScience//tessdata");
        String text = tesseract.doOCR(convFile);
        redirectAttributes.addFlashAttribute("file", file);
        redirectAttributes.addFlashAttribute("text", text);
        return new RedirectView("result");
    }

    @RequestMapping("/result")
    public String result() {
        return "result";
    }

    public static File convert(MultipartFile file) throws IOException {
        File convFile = new File(file.getOriginalFilename());
        convFile.createNewFile();
        FileOutputStream fos = new FileOutputStream(convFile);
        fos.write(file.getBytes());
        fos.close();
        return convFile;
    }
}複製代碼

Tesseract 能夠和Java的 File 類一塊兒工做，可是不支持表單上傳的 MultipartFile 類。爲了便於處理，咱們添加了一個簡單的 convert() 方法，它將 MultipartFile 對象轉換成一個普通的 File 對象。

一旦咱們利用 Tesseract 提取出了文本，咱們只需將該文本和掃描的圖像一塊兒添加到模型當中，而後附加到重定向的展現頁面 - result。

1.3.3 展現頁面

如今，讓咱們定義一個包含簡單文件上傳表單的展現頁面：

<html>
<body>
<h1>Upload a file for OCR:</h1>

<form method="POST" action="/upload" enctype="multipart/form-data">
    <input type="file" name="file" /><br/><br/>
    <input type="submit" value="Submit" />
</form>

</body>
</html>複製代碼

以及一個結果頁面：

<html xmlns:th="http://www.thymeleaf.org">
<body>

<h1>Extracted Content:</h1>
<h2>><span th:text="${text}"></span></h2>

<p>From the image:</p>
<img th:src="'/' + ${file.getOriginalFilename()}"/>
</body>
</html>複製代碼

運行這個應用程序將會有一個簡單的交互界面迎接咱們：