OCR技術（大批量生成文字訓練集）

時間 2021-01-12

原文原文鏈接

如果是想訓練一個手寫體識別的模型，用一些前人收集好的手寫文字集就好了，比如中科院的這些數據集。但是如果我們只是想要訓練一個專門用於識別印刷漢字的模型，那麼我們就需要各種印刷字體的訓練集，那怎麼獲取呢？藉助強大的圖像庫，自己生成就行了！先捋一捋思路，生成文字集需要什麼步驟：確定你要生成多少字體，生成一個記錄着漢字與label的對應表。確定和收集需要用到的字體文件。生成字體圖像，存儲在規定的目