有了 iText,你截圖,騰訊、Google OCR 幫你識別文字

好比,在看相似上面的掃描版 PDF 時,想要複製其中的文字,怎麼辦?手打?太累。試試我新開發的工具 iText 吧。html

iText 是 macOS 平臺的 OCR 工具,自帶截圖功能,選擇屏幕任意區域,便可識別其中的文字,又爽又酷。算法

識別後的文字已經複製到系統剪貼板,直接粘貼便可。微信

配合 ⇧⌘1 快捷鍵,使用體驗更佳。固然,你也能夠選擇圖片文件,或者將圖片拖拽至 iText 的菜單欄圖標進行識別。app

文字識別精準

你有沒有這種印象:OCR 識別出來的文字有不少問題,還不如本身打字來得快。可見,識別的準確性很是重要,也是我很是在乎的一點。工具

騰訊、Google 雙引擎

首先,我排除了離線的識別庫,由於離線註定了這些庫的識別能力是死的,不會本身加強。接下來,在一票在線 OCR 服務中,我對比了百度、騰訊、微軟、Google 等大廠的產品,最後選擇了國內使用騰訊、國外使用 Google 的組合。判斷依據是什麼?少許測試 + 主觀傾向,好比不測我就以爲 Google 比微軟牛。測試

那麼,到底識別準不許呢?這麼說吧:優化

  • 對於通常的天然語言,好比書中的一段話、新聞稿,識別效果是驚人的準確,甚至能夠達到 100%
  • 對於排版複雜、尤爲有特殊字符的文字,好比程序代碼、選擇題,識別效果就不太理想,須要手動對識別後的結果進行修正
    • 好比,單純地給一個豎線,機器是沒法區分究竟是小寫的 l、仍是大寫的 I(順便問一下,你看出兩者的區別了嗎?);與之相對,機器是須要根據上下文進行判斷和優化的。而像程序代碼這種非天然語言,機器目前是很難進行語義識別的

到底準不許?你不妨一試。.net

首創算法,進一步優化識別結果

OCR 服務還有一些欠缺,iText 針對性地作了這些優化:code

  • 自動識別段落
  • 中文環境使用全角標點符號
  • 中文與英文字母、數字間增長空格
  • 刪除中文字符間、英文字符與標點符號間的多餘空格
  • 英文首字母大寫

若是你發現識別很差的地方,歡迎把圖發給我,我會相應地優化算法,畢竟算法是須要數據餵養的,先謝。cdn

預覽原圖,方便校對

在目前 OCR 技術不能始終達到 100% 的狀況下,預覽原圖、並進行修正,仍是有必要的。在 iText 中,你能夠這樣:

  • 將識別後的窗口拖到圖片附近
  • 調用 iText 識別結果的 雙欄模式:左側展現圖片、右側展現識別後的文字

這樣,就能夠很方便地對照原圖進行手動優化識別後的文字。

下載與付費

其實,不少場景都會用到 iText,好比 識別快遞單上的號碼、圖片中的聯繫人信息、須要登陸才能複製的網頁 等等,歡迎下載 iText 試試。

每個月可免費識別 20 次,訂閱 iText 高級版便可無限次識別。首發期間,高級版限時 6 折優惠:¥3/月、¥30/年。關於收費模式,我非常糾結了一番。若是你準備吐槽,請先看下這篇文章再次糾結付費模式,此次是 iText

若是你以爲 iText 還不錯,還請幫忙 在 App Store 評論;若是你以爲 iText 還能夠改進,歡迎:

相關文章
相關標籤/搜索