文本預處理，語言模型，循環神經網絡

時間 2021-07-12

標籤自然語言處理简体版

原文原文鏈接

1.文本預處理文本是一類序列數據，一篇文章可以看作是字符或單詞的序列，本節將介紹文本數據的常見預處理步驟，預處理通常包括四個步驟：讀入文本分詞建立字典，將每個詞映射到一個唯一的索引（index）將文本從詞的序列轉換爲索引的序列，方便輸入模型 2語言模型一段自然語言文本可以看作是一個離散時間序列，給定一個長度爲 T T T的詞的序列 w 1 , w 2 , … , w T w_1, w_

>>阅读原文<<