第二次打卡,文本預處理,語言模型,循環神經網絡基礎

** 文本預處理 ** 文本是一類序列數據,一篇文章可以看作是字符或單詞的序列,本節將介紹文本數據的常見預處理步驟,預處理通常包括四個步驟:讀入文本;分詞;建立字典,將每個詞映射到一個唯一的索引(index);將文本從詞的序列轉換爲索引的序列,方便輸入模型。 ** 語言模型 ** 一段自然語言文本可以看作是一個離散時間序列,給定一個長度爲T的詞的序列w1,w2,…,wT,語言模型的目標就是評估該序
相關文章
相關標籤/搜索