《動手學》公益課打卡筆記01-文本預處理、語言模型、RNN基礎

時間 2021-01-11

原文原文鏈接

文本預處理在餵給算法訓練前必須對數據進行必要的處理，將各種類型的數據轉換爲計算機（或者說ML算法）便於處理的形式。雖然深度學習的一大重要特點是「端到端」，不需要（過多的）特徵工程，但仍免不了一些處理。文本預處理就是對以字符串形式存儲的文本數據進行處理的過程，通常包括4個步驟：讀入文本詞彙分割（分詞）建立字典，將每個詞映射到一個唯一的索引將文本從詞的序列轉換爲索引的序列，方便輸入模型在

>>阅读原文<<