文本預處理

文本預處理的工做 1 原始文本數據的獲取 通常是從網站上爬取須要的數據內容,這裏處理的文本主要是英文的文本。得到的數據的形式爲:一個文檔佔據一行。python 2 Tokenize(令牌化) 因爲原始的文本是一個文檔佔據一行,無法對單個詞進行統計分析,全部要將單詞所有分開,包括將標點符號也要分開。web 3 stemming&lemma(詞幹化及詞型還原) 在英文中,同一個單詞會由於時態、語態的不
相關文章
相關標籤/搜索