NLP之文本表示——二值文本表示

文本原始結構爲非結構化的字符串,大部分的模型和算法都不能處理非結構化的數據。因此,我們需要將非結構化的數據結構化。 方法:將文本映射到特定的特徵空間上,將文本表示爲能夠刻畫其信息的特徵向量,使得我們可以利用各種算法模型來處理這些文本數據。 什麼樣的特徵能刻畫文本信息呢? 將特徵選爲文本中出現的詞,通過定義詞在文本中的重要度得到文本的向量表示。 在主流的文本表示方法中,大致可以將文本表示方法分爲非神
相關文章
相關標籤/搜索