達觀杯」文本智能處理挑戰賽——(二)TF-IDF理論並實踐

一、特徵工程(方案) 用傳統的監督學習模型對一段文文本進行分類的基本過程: 一段原始文本→(數據預處理)→處理後的文本→(特徵工程)→Features→輸入→y=f(x_1,x_2,x_3,…)→輸出→類別 特徵工程是整個機器學習過程中最要的部分。特徵決定了機器學習的上限,而機器學習算法只是逼近這個上限。因此,在機器學習的文本挖掘的預處理中,通常考慮採用TF-IDF的處理,那麼什麼是TF-IDF,
相關文章
相關標籤/搜索