文本分類語言模型-《動手學深度學習pytorch》

時間 2020-12-30

標籤機器學習简体版

原文原文鏈接

文本預處理預處理通常包括四個步驟：讀入文本分詞建立字典，將每個詞映射到一個唯一的索引（index）將文本從詞的序列轉換爲索引的序列，方便輸入模型有一些現有的工具可以很好地進行分詞，例如spaCy和NLTK 語言模型一段自然語言文本可以看作是一個離散時間序列，給定一個長度爲TT的詞的序列w1,w2,…,wT語言模型的目標就是評估該序列是否合理，即計算該序列的概率：P(w1,w2,…,w

>>阅读原文<<