《動手學》公益課打卡筆記01-文本預處理、語言模型、RNN基礎

文本預處理 在餵給算法訓練前必須對數據進行必要的處理,將各種類型的數據轉換爲計算機(或者說ML算法)便於處理的形式。雖然深度學習的一大重要特點是「端到端」,不需要(過多的)特徵工程,但仍免不了一些處理。 文本預處理就是對以字符串形式存儲的文本數據進行處理的過程,通常包括4個步驟: 讀入文本 詞彙分割(分詞) 建立字典,將每個詞映射到一個唯一的索引 將文本從詞的序列轉換爲索引的序列,方便輸入模型 在
相關文章
相關標籤/搜索