深度學習筆記（2）

時間 2021-01-15

原文原文鏈接

一、文本預處理文本是一類序列數據，一篇文章可以看作是字符或單詞的序列，預處理通常包括四個步驟： 1、讀入文本 2、分詞：對每個句子進行分詞，也就是將一個句子劃分成若干個詞（token），轉換爲一個詞的序列。 3、建立字典：將每個詞映射到一個唯一的索引（index）。爲了方便模型處理，我們需要將字符串轉換爲數字。因此我們需要先構建一個字典（vocabulary），將每個詞映射到一個唯一的索引編號。

>>阅读原文<<