DC自然語言處理———文本分類基礎

NLP相關基礎概念 文檔(document):是指一段單獨的文本信息。可能是一則短信、一條推特、一份郵件、一本書、或者一首歌詞。一般一個文檔對應於一個觀測值或一行數據。 詞語(token):例如「今天天氣真好」這個文檔,是由今天,天氣,真好三個單詞組成的。token相當於機器學習中的特徵(列)。 預料(corpus):文檔的集合(預料大於等於一條文檔)。這相當於我們要研究對象的所有文本數據。 (1
相關文章
相關標籤/搜索