自然語言處理中的文本處理和特徵工程

機器之心報道 文本處理 現有數據中,文本是最非結構化的形式,裏面有各種各樣的噪聲;如果沒有預處理,文本數據都不能分析。清理和標準化文本的整個過程叫做文本預處理(textpreprocessing),其作用是使文本數據沒有噪聲並且可以分析。 主要包括三個步驟: 移除噪聲詞彙規範化對象標準化 下圖展示了文本預處理流程的結構。 移除噪聲 任何與數據上下文和最終輸出無關的文本都可被判作噪聲。 例如,語言停
相關文章
相關標籤/搜索