機器學習系列--數據預處理

預處理 現實世界數據源極易受噪聲、缺失值和不一致數據的侵擾。低質量的數據將導致低質量的挖掘結果。   屬性是一個數據字段,表示數據對象的一個特徵。 標稱屬性:一些符號或者事物的名稱,比如:職業,學歷   二元屬性:一種標稱屬性,只有兩個類別或者狀態:0或1,其中0表示不出現,1表示出現。對稱,比如:男女,沒有偏好 。非對稱,比如:疾病,陰性和陽性,結果不是同樣重要。   序數屬性:其可能的值之間具
相關文章
相關標籤/搜索