DC數據清理(pandas、seabron)

格式轉換 數據的原始儲存形式未必適合Python的數據處理 例如:時間,字符串轉其他 缺失數據 每條數據都可能在某些屬性值上缺失 怎樣應對缺失數據 忽略有缺失數據的記錄 直接把值標記成未知 利用平均值、最常出現的值等去填充(有很多複雜的方法。) 異常數據 出現不符合常識的數據(異常挖掘) 處理方式類比缺失數據 數據標準化 US、USA、united states------>美國(USA) 住址範
相關文章
相關標籤/搜索