動手學深度學習——學習筆記(Task2)

文本預處理 文本是一類序列數據,一篇文章可以看作是字符或單詞的序列,本節將介紹文本數據的常見預處理步驟,預處理通常包括四個步驟: 讀入文本; 分詞; 建立字典;將每個詞映射到一個唯一的索引(index) 將文本從詞的序列轉換爲索引的序列,方便輸入模型。 讀入文本 分詞 建立字典 將詞轉化爲索引 語言模型 語言模型的計算 n元語法 時序數據採樣 隨機採樣 相鄰採樣 總結 N元語法是基於n − 1階馬
相關文章
相關標籤/搜索