數據挖掘學習(一)

數據質量通常不完美,存在的問題:噪聲、離羣點。 數據集的一般特性:緯度、稀疏性、分辨率。 數據集的維度:是數據集中的對象具有的屬性數目。低緯度數據往往與中、高維度數據有着質的不同。分析高維數據有事會陷入數據災難,所以再進行數據與處理時 減少維度很重要。 稀疏性:指的是數據集的屬性上大部分的值爲0; 分辨率:數據的模式依賴於分辨率,分辨率太高,噪聲嚴重,模式可能被掩藏在噪聲中;分辨率太低,則模式可能
相關文章
相關標籤/搜索