Task2

時間 2021-01-12

原文原文鏈接

文本預處理文本是一類序列數據，一篇文章可以看作是字符或單詞的序列，本節將介紹文本數據的常見預處理步驟，預處理通常包括四個步驟：讀入文本分詞建立字典，將每個詞映射到一個唯一的索引（index）將文本從詞的序列轉換爲索引的序列，方便輸入模型用現有工具進行分詞前面介紹的分詞方式非常簡單，至少有以下幾個缺點: 標點符號通常可以提供語義信息，但是我們的方法直接將其丟棄了類似「shouldn’