場景文本識別模型綜述

時間 2020-12-23

原文原文鏈接

一、數據集的分析 (一) 訓練數據集大多數自然場景文字識別算法使用合成數據進行訓練。兩個常用的合成數據集是 MJSynth(MJ) 和 SynthText(ST) ，分別包含890萬和550萬張訓練樣本。圖1 不同比例的訓練數據集（MJ+ST）與算法識別性能結論：自然場景文字識別算法的性能隨着數據量的增多而改善。在不同訓練數據集下訓練的模型，彼此不具有可比性。數據的多樣性比數據量更加重

>>阅读原文<<