NLP項目-文本處理的流程分析

時間 2021-01-02

標籤 NPL自然語言處理简体版

原文原文鏈接

大部分的NLP項目都是圍繞着上面那個pipeline進行的，需要把一個原始文本經過一系列處理，把它處理成特徵向量，整個的處理流程分爲幾個大的步驟，首先需要對文本做分詞操作，分詞可以分爲英文分詞和中文分詞，英文分詞比較簡單，完全可以通過空格和標點符號進行區分每一個單詞，中文相對困難。之後我們經常做一些數據的清洗工作，主要包括清洗一些沒有的標籤，比如<html>，特殊符號（!。），停用

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。