動手學深度學習——學習筆記（Task2）

時間 2020-12-27

標籤神經網絡機器學習 pytorch 深度學習简体版

原文原文鏈接

文本預處理文本是一類序列數據，一篇文章可以看作是字符或單詞的序列，本節將介紹文本數據的常見預處理步驟，預處理通常包括四個步驟：讀入文本；分詞；建立字典；將每個詞映射到一個唯一的索引（index）將文本從詞的序列轉換爲索引的序列，方便輸入模型。讀入文本分詞建立字典將詞轉化爲索引語言模型語言模型的計算 n元語法時序數據採樣隨機採樣相鄰採樣總結 N元語法是基於n − 1階馬

>>阅读原文<<