Java 圖像智能字符識別技術——【專題三】

時間 2019-11-13

原文原文鏈接

對於圖像智能字符識別時，咱們處理的時候單純的使用一種算法去識別時識別率是很是低的。而實際上企業或真實項目中的圖片都是作過各類處理的，在這種狀況下咱們單純的使用一種方法，顯得過於蒼白。咱們在專題一種講到的圖片識別前的準備工做還有不少，只用專題二中的【二值化】、【噪聲消除】還遠遠不夠，這節咱們看一下【傾斜較正】和【字符切割】處理。算法

字符切割

給你們幾個例子還拿某互聯網公司的電話號碼來講，他們選擇了紅色，並且圖片的舉例明顯離得很近，這樣的話明顯給識別帶來了難度（紅色在調整閥值時反差不夠明顯，文字間距小識別就容易出錯），對這種咱們能夠採用字符切分，按照必定比例去切分圖片（該方法適用性不是很強，須要先找到圖片的規律，並且切割時容易切割錯位。那爲何還要講，畢竟也是一種方法，在一些特殊狀況這種方法仍是頗有效果的），切分後給各個圖片編號。使用其餘算法按照順序單個處理便可。spa

eg：圖片

圖一文檔

圖二擴展

可能圖一咱們按照必定的比例去切割在識別的時候仍是沒有問題的。對於圖二咱們按照必定比例切割時，上面提到的問題將都會出現。對於第二張圖須要說一下圖中綠色部分，白色是原圖的底色，在分隔的時候就像圖二同樣在最後一次分隔時原圖片剩餘部分不夠分隔比例時，這種圖在分隔以前須要在原圖上補充擴展底圖，讓其寬度是分割比例的倍數。這樣可防止切割時最後一張圖不切割的問題。互聯網

這是使用物理切割的方法區識別，還有一些更高明的分隔算法eg：投影分隔、顏色聚類等分隔算法。有興趣的朋友能夠再去研究此類算法，再次就不贅述了。方法