NLP文本處理的流程

文本處理流程 首先先看一個整體的流程圖 原始文本:從網頁、新聞或者指定資源獲取的沒有經過處理的原始文本數據。 分詞:一般分爲英文和中文,英文相對較簡單,多數通過空格或者其他標點符號就可以,而中文相對困難。 清洗: 1.無用的標籤,如:html;2. 特殊符號,如!;3. 停用詞,如,英文中的a, an,the;4.大寫轉小寫, 標準化:主要用在英文語料中,把多個單詞轉換成統一的單詞,簡單的說就是同
相關文章
相關標籤/搜索