對pandas 數據進行數據打亂並選取訓練機與測試機集

描述web 在機器學習中,拿到一堆訓練數據通常會須要將數據切分紅訓練集和測試集,或者切分紅訓練集、交叉驗證集和測試集,爲了不切分以後的數據集在特徵分佈上出現偏倚,咱們須要先將數據打亂,使數據隨機排序,而後在進行切分。 須要用的方法以下: 注:df表明一個pd.DataFrame機器學習 df = df.sample(frac=1.0): 按100%的比例抽樣即達到打亂數據的效果svg df = d
相關文章
相關標籤/搜索