自然語言處理中的文本處理和特徵工程

時間 2020-12-23

標籤自然語言處理简体版

原文原文鏈接

機器之心報道文本處理現有數據中，文本是最非結構化的形式，裏面有各種各樣的噪聲；如果沒有預處理，文本數據都不能分析。清理和標準化文本的整個過程叫做文本預處理（textpreprocessing），其作用是使文本數據沒有噪聲並且可以分析。主要包括三個步驟：移除噪聲詞彙規範化對象標準化下圖展示了文本預處理流程的結構。移除噪聲任何與數據上下文和最終輸出無關的文本都可被判作噪聲。例如，語言停

>>阅读原文<<