zw·準專利·高保真二值圖細部切分算法

zw·準專利·高保真二值圖細部切分算法
     高保真二值圖細部切分算法,是中國字體協會項目的衍生做品。
     說準專利算法,是由於對於圖像算法的標準不瞭解,雖然報過專利,但不是這方面的,須要諮詢專業的專利顧問。
     原型是用opencv+python實現的,由於Halcon,對於協會的設計師,門檻過高,因此,特地設計了一套opencv+python的live-cd,解壓便可,無需配置。java

 

      高保真二值圖細部切分算法,初看很簡單,其實很複雜。python

      ps,簡單的東西,每每更復雜,就像天天遇到的:URL協議,至今沒有一個可以100%徹底解析的模塊庫,包括IBM、java、微軟、。。。。。。算法

      再如,目前火熱的大數據、人工智能,核心算法仍是k-v、和匹配。函數

      說白了,就是相似字符串的pos函數,不過這個字符串長度多是10億字節。字體

 

       高保真二值圖細部切分算法,複雜度主要體如今如下幾個方面:大數據

    • 算法必須通用,國標二級,每套字庫收錄有6763個漢字。算法必須適用於每一個漢字,並且必須多種字體通用
    • 全自動運行,不能採用交互模式,否則成本過高,參見上一條。
    • 高保真,傳統ocr、車牌、人像、機器視覺,都沒有這個限制,數據寬容度70%均可接受,這個算法,匹配度必須是99%以上
    • 缺乏元數據,原始數據都是二值圖,缺少時間序列、深度、灰度等信息,像雙目立體、點雲、以及3D、VR系統,能夠經過時間序列圖片、光源、鏡頭變化,甚至多種傳感器,多角度,對同一對象進行掃描,多角度採集數據,進行合成。

    

       中國傳統書法,有不少飛白、潑墨的手法,產生了不少小孔、孤點,從圖像學角度,這些都是細小的干擾區。人工智能

       傳統的圖像處理算法,例如車牌、人臉、工業監測等,只需通過簡單的迭代過濾,便可解決。
       但對於書法做品而言,這些細節,倒是做品總體,必不可少的組成部分。
       與工業圖像處理相比,書法字體的圖像,所有是二值圖,
       表面看起來,這些圖像數據源,很是乾淨,但由於缺少細節,特別在筆畫分解時,很是麻煩。spa

      書法做品,風格各異,變化萬千,沒法經過建模、模板匹配的手段分割,這個建庫成本過高了。設計

 

      經多方檢索,沒有任何現成算法,能夠參考,所有須要從零開始,自行開發。
      經過反覆摸索、調試,最終,筆者成功經過圖像形態學,結合輪廓匹配,完美的實現了相關功能,受到相關學者承認。調試

   

        圖1,是原稿,                                                

 

圖2,是切分後的效果       

         

      注意兩圖A處的筆畫,已經分割,B、C、D等處潑墨效果,以及其餘細節,徹底保留。

       A處,是最難切分,而又保留細節的區域,其餘橫豎結合部,切割很簡單,就不在此介紹了。

      這個切割算法的另一個難點在於,國標二級,每一套字庫,都收錄有6763個漢字,

      算法必須通用,每套字庫的全部字形,以及各類其餘字庫,所有適用。

       否則,單獨對每個字進行分割,單套開發、實施成本,就沒法接受,更別說多套字庫了,

      另外,附錄的幾張圖,是其餘處理環節的截圖,供參考。

     

相關文章
相關標籤/搜索