摩爾LabAI學習小組第二次打卡

1、文本預處理 1)預處理步驟 文本是一類序列數據,一篇文章可以看作是字符或單詞的序列,本節將介紹文本數據的常見預處理步驟,預處理通常包括四個步驟: a,讀入文本 b,分詞 c,建立字典,將每個詞映射到一個唯一的索引(index) d,將文本從詞的序列轉換爲索引的序列,方便輸入模型 2、語言模型 1)某文本序列的概率 但是以上概率過於繁瑣,所以經過馬爾科夫鏈假設,簡化爲: 2)時序數據的採樣 爲什
相關文章
相關標籤/搜索