In [5]: from sklearn import preprocessing ...: le =preprocessing.LabelEncoder() ...: le.fit(["paris", "paris", "tokyo", "amsterdam"]) ...: print('標籤個數:%s'% le.classes_) ...: print('標籤值標準化:%s' % le.transform(["tokyo", "tokyo", "paris"])) ...: print('標準化標籤值反轉:%s' % le.inverse_transform([2, 2, 1])) ...: 標籤個數:['amsterdam' 'paris' 'tokyo'] 標籤值標準化:[2 2 1] 標準化標籤值反轉:['tokyo' 'tokyo' 'paris']
sklearn.preprocessing.LabelEncoder():標準化標籤,將標籤值統一轉換成range(標籤值個數-1)範圍內spa
例如code
["paris", "paris", "tokyo", "amsterdam"];裏面不一樣的標籤數目是3個,則標準化標籤以後就是0,1,2,而且根據字典排序