task3 tf-idf文本分類

時間 2021-01-20

原文原文鏈接

在機器學習算法的訓練過程中，假設給定$N$個樣本，每個樣本有$M$個特徵，這樣組成了$N×M$的樣本矩陣，然後完成算法的訓練和預測。同樣的在計算機視覺中可以將圖片的像素看作特徵，每張圖片看作hight×width×3的特徵圖，一個三維的矩陣來進入計算機進行計算。但是在自然語言領域，上述方法卻不可行：文本是不定長度的。文本表示成計算機能夠運算的數字或向量的方法一般稱爲詞嵌入（Word Embedd

>>阅读原文<<