NLP文本處理流程

一般咱們文本處理流程以下:機器學習 1 對文本數據進行預處理:數據預處理,包括簡繁體轉換,去除xml符號,將單詞條內容處理成單行數據,word2vec訓練原理是基於詞共現來訓練詞之間的語義聯繫的。不一樣詞條內容需分開訓練 2 中文分詞:中文NLP很重要的一步就是分詞了,分詞的好壞很大程度影響到後續的模型訓練效果 3 特徵處理:也叫詞向量編碼,將文本數據轉換成計算機能識別的數據,便於計算,一般是轉換
相關文章
相關標籤/搜索