NLP項目-文本處理的流程分析

        大部分的NLP項目都是圍繞着上面那個pipeline進行的,需要把一個原始文本經過一系列處理,把它處理成特徵向量,整個的處理流程分爲幾個大的步驟,首先需要對文本做分詞操作,分詞可以分爲英文分詞和中文分詞,英文分詞比較簡單,完全可以通過空格和標點符號進行區分每一個單詞,中文相對困難。之後我們經常做一些數據的清洗工作,主要包括清洗一些沒有的標籤,比如<html>,特殊符號(!。),停用
相關文章
相關標籤/搜索