機器學習筆記_2

時間 2019-11-16

標籤機器學習筆記简体版

原文原文鏈接

沒想到再接着學習都是2019年3月30日16:37:49 了。。。
https://www.bilibili.com/video/av39137333/?p=7python

2.1.3數據集的劃分api

機器學習通常的數據集會劃分爲兩個部分:數組

-網絡

2019年3月6日10:50:29dom

07 sklearn 數據集使用機器學習

https://www.bilibili.com/video/av39137333/?p=7ide

思考：拿到的數據是否所有用來訓練一個模型？函數

模型進行評估，拿到數據時，留出一部分，用來跟模型的數據進行比較。工具

測試集 20-30%學習

安裝PyCharm

2019年3月5日16:11:12

https://blog.csdn.net/sinat_32582203/article/details/71633678

重啓電腦後，會出現。

virtualBox 新建共享文件夾後，打開提示沒有權限
https://blog.csdn.net/idoming/article/details/51788878

sudo usermod -a -G vboxsf yourusername

07 sklearn 數據集使用

https://www.bilibili.com/video/av39137333/?p=7

2019年3月4日16:51:28

思考：拿到的數據是否所有用來訓練一個模型？

模型進行評估，拿到數據時，留出一部分，用來跟模型的數據進行比較。

2.1.3 數據集的劃分

機器學習通常的數據集會劃分爲兩個部分：

訓練數據：用於訓練，構建模型。
測試數據：在模型檢驗時使用，用於評估模型是否有效

劃分比例：

訓練集：70% 80% 75%
測試集：30% 20% 25%

數據集劃分api

sklearn.model_selection.train_test_split(arrays,*options)
- x數據集的特徵值
- y數據集的標籤值
- test_size 測試集的大小，通常爲float
- random_state 隨機數種子，不一樣的種子會形成不一樣的隨機採樣結果。相同的種子採樣結果相同。
- return 訓練集特徵值，測試集特徵值，訓練集目標值，測試集目標值

2019年3月4日08:18:31

2.1.2 sklearn

1.scikit-learn 數據集API介紹

sklearn.datasets
- 加載獲取流行數據集
- datasets.load_*()
  - 獲取小規模數據集，數據包含在datasets裏
- datasets.fetch_*(data_home=None)
  - 獲取大規模數據集，須要從網絡上下載，函數的第一個參數是data_home,表示數據集下載的目錄，默認是~/scikit_learn_data/

2.sklearn 小數據集

sklearn.datasets.load_iris()

加載並返回鳶尾花數據集 Iris 是在UCI數據學習倉庫裏面特別流行的數據集。

sklearn.datasets.load_boston()

　　　加載並返回波士頓房價數據集

3.sklearn 大數據集

sklearn.datasets.fetch_20newsgroups(data_home=None,subset='train')
- subset:'train'或者'test','all',可選，選擇要加載的數據集
- 訓練集的「訓練」，測試集的「測試」，二者的「所有」

4.sklearn 數據集的使用

sklearn 數據集返回值介紹　　

load 和 fetch 返回的數據類型datasets.base.Bunch（字典格式）
- data:特徵數據數組，是[n_samples*n_features]的二維 numpy.ndarray數組
- target：標籤數組，是n_samples 的一維numpy.ndarray數組
- DESCR:數據描述
- feature_names:特徵名，新聞數據，手寫數字、迴歸數據集沒有
- target_names:標籤名

from sklearn.datasets import load_iris

#獲取鳶尾花數據集
iris =load_iris()
print("鳶尾花數據集的返回值：\n",iris)

#返回值是一個繼承自字典的Bench
print("鳶尾花的特徵值：\n",iris["data"])
print("鳶尾花的目標值：\n",iris.target)
print("鳶尾花特徵的名字：\n",iris.feature_names)
print("鳶尾花目標值的名字：\n",iris.target_names)
print("鳶尾花的描述：\n",iris.DESCR)

pyCharm 工具的安裝