深度學習筆記(2)

一、文本預處理 文本是一類序列數據,一篇文章可以看作是字符或單詞的序列,預處理通常包括四個步驟: 1、讀入文本 2、分詞:對每個句子進行分詞,也就是將一個句子劃分成若干個詞(token),轉換爲一個詞的序列。 3、建立字典:將每個詞映射到一個唯一的索引(index)。爲了方便模型處理,我們需要將字符串轉換爲數字。因此我們需要先構建一個字典(vocabulary),將每個詞映射到一個唯一的索引編號。
相關文章
相關標籤/搜索