機器學習筆記_2

沒想到再接着學習都是2019年3月30日16:37:49 了。。。
https://www.bilibili.com/video/av39137333/?p=7python

2.1.3數據集的劃分api

機器學習通常的數據集會劃分爲兩個部分:數組

-網絡

 

 

 

2019年3月6日10:50:29dom

 

07 sklearn 數據集使用機器學習

https://www.bilibili.com/video/av39137333/?p=7ide

 

思考:拿到的數據是否所有用來訓練一個模型?函數

模型進行評估,拿到數據時,留出一部分,用來跟模型的數據進行比較。工具

測試集 20-30%學習

 

安裝PyCharm

 

2019年3月5日16:11:12

https://blog.csdn.net/sinat_32582203/article/details/71633678

重啓電腦後,會出現。

 

 

virtualBox 新建共享文件夾後,打開提示沒有權限
https://blog.csdn.net/idoming/article/details/51788878
 

 

sudo usermod -a -G vboxsf yourusername
 
 
 

 

 

07 sklearn 數據集使用

https://www.bilibili.com/video/av39137333/?p=7

 

2019年3月4日16:51:28

思考:拿到的數據是否所有用來訓練一個模型?

模型進行評估,拿到數據時,留出一部分,用來跟模型的數據進行比較。

 

2.1.3 數據集的劃分

機器學習通常的數據集會劃分爲兩個部分:

  • 訓練數據:用於訓練,構建模型
  • 測試數據:在模型檢驗時使用,用於評估模型是否有效

劃分比例:

  • 訓練集:70%   80%  75%
  • 測試集:30%  20%   25%

數據集劃分api

  • sklearn.model_selection.train_test_split(arrays,*options)
    • x數據集的特徵值
    • y數據集的標籤值
    • test_size 測試集的大小,通常爲float
    • random_state  隨機數種子,不一樣的種子會形成不一樣的隨機採樣結果。相同的種子採樣結果相同。
    • return 訓練集特徵值,測試集特徵值,訓練集目標值,測試集目標值

 

2019年3月4日08:18:31 

2.1.2 sklearn

1.scikit-learn 數據集API介紹

  • sklearn.datasets
    • 加載獲取流行數據集
    • datasets.load_*()
      • 獲取小規模數據集,數據包含在datasets裏
    • datasets.fetch_*(data_home=None)
      • 獲取大規模數據集,須要從網絡上下載,函數的第一個參數是data_home,表示數據集下載的目錄,默認是~/scikit_learn_data/  

2.sklearn 小數據集

  • sklearn.datasets.load_iris()

           加載並返回鳶尾花數據集 Iris 是在UCI數據學習倉庫裏面特別流行的數據集。

  • sklearn.datasets.load_boston()

    加載並返回波士頓房價數據集

3.sklearn 大數據集

  • sklearn.datasets.fetch_20newsgroups(data_home=None,subset='train')
    • subset:'train'或者'test','all',可選,選擇要加載的數據集
    • 訓練集的「訓練」,測試集的「測試」,二者的「所有」

4.sklearn 數據集的使用

 sklearn 數據集返回值介紹  

  •  load 和 fetch 返回的數據類型datasets.base.Bunch(字典格式)
    • data:特徵數據數組,是[n_samples*n_features]的二維 numpy.ndarray數組
    • target:標籤數組,是n_samples 的一維numpy.ndarray數組
    • DESCR:數據描述
    • feature_names:特徵名,新聞數據,手寫數字、迴歸數據集沒有
    • target_names:標籤名

 

from sklearn.datasets import load_iris

#獲取鳶尾花數據集
iris =load_iris()
print("鳶尾花數據集的返回值:\n",iris)

#返回值是一個繼承自字典的Bench
print("鳶尾花的特徵值:\n",iris["data"])
print("鳶尾花的目標值:\n",iris.target)
print("鳶尾花特徵的名字:\n",iris.feature_names)
print("鳶尾花目標值的名字:\n",iris.target_names)
print("鳶尾花的描述:\n",iris.DESCR)

  

 pyCharm 工具的安裝

相關文章
相關標籤/搜索