Google AI推出新版的辨識模型 將手寫輸入辨識錯誤率下降

Google AI研究團隊透過遞歸神經網絡(RNN),將Gboard手寫輸入辨識模型的錯誤率下降了20%~40%,Google也爲全部以拉丁字母書寫的語言,推出新版的辨識模型,並發表相關的研究論文,詳細解釋該版本模型背後的技術。網絡

過去,Google採用的辨識方法是將手寫輸入切割成單個字符,再針對字符進行譯碼,Google解釋,對每一個手寫識別系統而言,接觸點是開端,系統將一序列的點視爲筆畫,而手寫輸入就是用筆畫序列來表示,且每一個點都會附有時間戳,因爲Gboard被用於多種不一樣的設備,也意味着有着不一樣的屏幕分辨率,所以,Google的第一步便是要將接觸點座標正規化,接着,爲了正確地擷取手寫輸入的形狀,Google將接觸點組成的序列,轉換三次貝塞爾曲線(cubic Bézier curves)序列,再將其序列做爲遞歸神經網絡的輸入數據。併發

Google表示,雖然用貝塞爾曲線做爲手寫識別的資料已經行之有年,可是將其看成AI模型的輸入數據倒是很是新穎的,如此一來,也可以在不一樣樣本數量和正確率的多種設備中,提供一致的輸入數據,有別於過去切割和譯碼的辨識方法,Google如今則是建立多個如何將筆畫分解字符的不一樣假設,接着從這些分解後的序列中,找出最適合的字符序列。優化

這個新方法的另一個優勢是,貝塞爾曲線的序列比接觸點序列來得小,使模型更容易取得輸入數據的時間依賴性,也就是每條曲線都是由起始點、終點,以及兩個額外的控制點所定義的多項式來表示,透過迭代的方式將輸入座標和曲線之間的平方距離最小化,來找出準確表示手寫輸入的三次貝塞爾曲線序列。url

找出手寫輸入的三次貝塞爾曲線序列以後,還須要將曲線序列轉譯爲真實寫做字符,爲此,Google利用多層遞歸神經網絡來處理曲線序列,並針對每一個曲線搜索全部可能字符的機率分佈,再將該機率分佈輸出成矩陣。.net

朕亨公益研究的過程當中,Google嘗試過多種不一樣種類的遞歸神經網絡,最後選擇雙向版本的準遞歸神經網絡(quasi-recurrent neural networks),準遞歸神經網絡可以在卷積層和遞歸層之間交替,提供有效的預測能力,同時也可以維持相對較少的權重數量,權重數量會直接影響模型的大小,模型越小效能就越好。blog

此外,爲了提供最佳的用戶體驗,模型不但要準確也要快速,所以,Google將在TensorFlow訓練好的模型轉換成行動裝置版的TensorFlow Lite模型,在模型訓練的過程當中量化全部權重,同時,TensorFlow Lite針對二進制進行優化的特型,可以減小APK的大小。遞歸

相關文章
相關標籤/搜索