摩爾LabAI學習小組第二次打卡

時間 2020-12-30

原文原文鏈接

1、文本預處理 1）預處理步驟文本是一類序列數據，一篇文章可以看作是字符或單詞的序列，本節將介紹文本數據的常見預處理步驟，預處理通常包括四個步驟： a,讀入文本 b,分詞 c,建立字典，將每個詞映射到一個唯一的索引（index） d,將文本從詞的序列轉換爲索引的序列，方便輸入模型 2、語言模型 1）某文本序列的概率但是以上概率過於繁瑣，所以經過馬爾科夫鏈假設，簡化爲： 2）時序數據的採樣爲什

>>阅读原文<<