從離散到分佈,盤點常見的文本表示方法

自然語言處理(NLP)的一些常見任務有:文本分類、指代消歧、自動摘要、機器翻譯、主題識別等。傳統的處理方法是基於規則的,現在更傾向於使用機器學習或深度學習的方法解決。那麼如何在計算機中表達一段文本/一個詞的意思呢?第一步必然是將這些語言特徵轉化爲量化的表達方式。本篇文章總結一下NLP中常用的文本特徵表示方式,並提供實際案例和代碼實現,用於解決文本分類問題。 1. 離散表示(Discrete Rep
相關文章
相關標籤/搜索