OCR技術(大批量生成文字訓練集)

如果是想訓練一個手寫體識別的模型,用一些前人收集好的手寫文字集就好了,比如中科院的這些數據集。但是如果我們只是想要訓練一個專門用於識別印刷漢字的模型,那麼我們就需要各種印刷字體的訓練集,那怎麼獲取呢?藉助強大的圖像庫,自己生成就行了! 先捋一捋思路,生成文字集需要什麼步驟: 確定你要生成多少字體,生成一個記錄着漢字與label的對應表。 確定和收集需要用到的字體文件。 生成字體圖像,存儲在規定的目
相關文章
相關標籤/搜索