NLP文本處理的流程

時間 2020-12-30

原文原文鏈接

文本處理流程首先先看一個整體的流程圖原始文本：從網頁、新聞或者指定資源獲取的沒有經過處理的原始文本數據。分詞：一般分爲英文和中文，英文相對較簡單，多數通過空格或者其他標點符號就可以，而中文相對困難。清洗： 1.無用的標籤，如：html；2. 特殊符號，如！；3. 停用詞，如，英文中的a， an，the；4.大寫轉小寫，標準化：主要用在英文語料中，把多個單詞轉換成統一的單詞，簡單的說就是同