sklearn-用sklearn.model_selection進行訓練集和測試集區分

時間 2020-03-11

標籤 sklearn sklearn.model model selection 進行訓練測試區分简体版

原文原文鏈接

一般來講區分樣本的訓練集和測試集，也是比較簡單的，訓練集：測試集爲7：3或者8：2均可以，當存在交叉驗證集的時候（一般樣本比較多的時候能夠考慮分爲三層，避免出現用測試集優化模型以後獲得的結果有傾向的狀況發生），能夠是6：2：2。python

這樣的話，咱們獲得一個DataFrame以後，給定必定範圍內的隨機數，用索引去匹配，便可獲得隨機打亂的DataFrame，舉個栗子：數組

import pandas as pd
import random
import math

df :pd.DataFrame = pd.read_excel(r"model.xls", header=0)

list1 = random.sample(df.index.tolist(), math.floor(len(df)*0.8))#取總樣本數的0.8爲訓練集，random.sample能夠隨機從list中取不一樣個數的值
ran_se = pd.Series(list1, name='ran_se', index=list1)#讓索引和列同值，方便合併

train
_x = pd.merge(df, ran_se, left_index=True, right_index=True)#用索引匹配進行合併
#訓練集剩下的就是測試集
test_x = df.drop(index=train_x.index)
test_x

能夠看到，這樣的狀況下是能夠按照必定的比例把數值分開的（上面的代碼裏忘記加種子了），可是也有一點點麻煩，畢竟都要手動處理。dom

那麼在sklearn裏面，有一個函數能夠解決這個問題，自動選出訓練集，訓練標籤，測試集，測試標籤。 sklearn.model_selection.train_test_split函數

看一下這個函數的官方文檔：
做用：將數組或矩陣拆分爲隨機訓練子和測試子集測試

參數
*array：具備相同長度的，帶索引的序列，能夠是lists, numpy arrays, scipy-sparse matrices 和dataframes ，表明要劃分的矩陣（第一個是特徵矩陣，第二個是標籤矩陣）優化

test_size(default=None)：當是float類型時，表明測試集的比例，是int類型時，表明測試集的個數，是None時，取1-訓練集的比例（總數-訓練集的個數），訓練集參數也爲None時，默認爲0.25spa

train_size(default=None)：同上，不過這個表明的是訓練集，不要弄混了！excel

random_state(default=None)：若是爲int類型，則是一個隨機種子，若是是RandomState 實例，則random_state就是隨機數生成器，若是爲None，則生成器取np.random。code

shuffle(default=False)：是否要在拆分數據前隨機排列數據，若是這個參數是False，則stratify 參數必須是None。索引

stratify(default=None)：若是不是None，則數據以分層方式拆分，使用此做爲類標籤。

隨機種子的概念比較重要，簡而言之，能夠看做一個給隨機數的ID，若是調用了這個ID的隨機數，不管怎麼運行，結果都是同樣的。（能夠保證不一樣時刻運行的隨機數是同一序列）

返回值
返回的是拆分以後的序列，是一個list，長度是原有數據的二倍。 能夠直接賦值來取得訓練集和測試集，順序分別是train_x, test_x, train_y, test_y，不要記混了。

獲得的訓練集和測試集直接拿來用就行了，都是DataFrame或者Series。

寫一個簡單的代碼以下：

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

df1 = pd.read_excel(r"model.xls", header=0)

# print(df1[df1.isnull().T.any()])#列出爲空的行
train_df = df1[['電量趨勢降低指標','線損指標','告警類指標']]
test_df = df1['是否竊漏電']

train_x, test_x, train_y, test_y = train_test_split(train_df, test_df, test_size = 0.2, random_state = 0)#自動分爲測試集和訓練集,注意返回值的順序
print(train_x)

須要注意的是寫進參數的是兩個DataFrame，一個是特徵，一個是標籤，這個在拆分以前就是要分開的。

這種方法明顯比手動去拆分要方便一些，sklearn庫中有很多簡便的函數，拿來直接用的確能提高很多效率。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。