Google AI推出新版的辨識模型將手寫輸入辨識錯誤率下降

Google AI研究團隊透過遞歸神經網絡（RNN），將Gboard手寫輸入辨識模型的錯誤率下降了20%～40%，Google也爲全部以拉丁字母書寫的語言，推出新版的辨識模型，並發表相關的研究論文，詳細解釋該版本模型背後的技術。網絡

過去，Google採用的辨識方法是將手寫輸入切割成單個字符，再針對字符進行譯碼，Google解釋，對每一個手寫識別系統而言，接觸點是開端，系統將一序列的點視爲筆畫，而手寫輸入就是用筆畫序列來表示，且每一個點都會附有時間戳，因爲Gboard被用於多種不一樣的設備，也意味着有着不一樣的屏幕分辨率，所以，Google的第一步便是要將接觸點座標正規化，接着，爲了正確地擷取手寫輸入的形狀，Google將接觸點組成的序列，轉換三次貝塞爾曲線（cubic Bézier curves）序列，再將其序列做爲遞歸神經網絡的輸入數據。併發

Google表示，雖然用貝塞爾曲線做爲手寫識別的資料已經行之有年，可是將其看成AI模型的輸入數據倒是很是新穎的，如此一來，也可以在不一樣樣本數量和正確率的多種設備中，提供一致的輸入數據，有別於過去切割和譯碼的辨識方法，Google如今則是建立多個如何將筆畫分解字符的不一樣假設，接着從這些分解後的序列中，找出最適合的字符序列。優化

這個新方法的另一個優勢是，貝塞爾曲線的序列比接觸點序列來得小，使模型更容易取得輸入數據的時間依賴性，也就是每條曲線都是由起始點、終點，以及兩個額外的控制點所定義的多項式來表示，透過迭代的方式將輸入座標和曲線之間的平方距離最小化，來找出準確表示手寫輸入的三次貝塞爾曲線序列。url

找出手寫輸入的三次貝塞爾曲線序列以後，還須要將曲線序列轉譯爲真實寫做字符，爲此，Google利用多層遞歸神經網絡來處理曲線序列，並針對每一個曲線搜索全部可能字符的機率分佈，再將該機率分佈輸出成矩陣。.net

在朕亨公益研究的過程當中，Google嘗試過多種不一樣種類的遞歸神經網絡，最後選擇雙向版本的準遞歸神經網絡（quasi-recurrent neural networks），準遞歸神經網絡可以在卷積層和遞歸層之間交替，提供有效的預測能力，同時也可以維持相對較少的權重數量，權重數量會直接影響模型的大小，模型越小效能就越好。blog

此外，爲了提供最佳的用戶體驗，模型不但要準確也要快速，所以，Google將在TensorFlow訓練好的模型轉換成行動裝置版的TensorFlow Lite模型，在模型訓練的過程當中量化全部權重，同時，TensorFlow Lite針對二進制進行優化的特型，可以減小APK的大小。遞歸

Google AI推出新版的辨識模型 將手寫輸入辨識錯誤率下降

Google AI推出新版的辨識模型將手寫輸入辨識錯誤率下降