Spark MLlib 特徵抽取、轉化和選擇 -- 特徵變換: 標籤和索引的轉化

這一部分主要介紹和特徵處理相關的算法,大體分爲以下三類: 1)特徵抽取:從原始數據中抽取特徵 2)特徵轉換:特徵的維度、特徵的轉化、特徵的修改 3)特徵選取:從大規模特徵集中選取一個子集 在機器學習處理過程中,爲了方便相關算法的實現,經常需要把標籤數據(一般是字符串)轉化成整數索引,或是在計算結束後將整數索引還原爲相應的標籤。 Spark ML包中提供了幾個相關的轉換器,例如:StringInde
相關文章
相關標籤/搜索