機器學習--第十三講--梯度降低

1.數據的介紹算法

咱們的數據集pga.csv包含專業高爾夫球手的兩列統計數據,accuracy 和distance。 accuracy 是測量在球場上屢次揮杆的命中百分比,distance是測量平均揮杆球的距離。咱們的目標是使用距離來預測精度。機器學習

對於機器學習算法而言,數據被使用以前,重要的是規模,或者正規化。這裏咱們在球場上測量的distance,和測量的百分比accuracy,這兩個領域很是不一樣,會學習算法的時候產生誤差。許多算法計算二者間的歐氏距離。若是一個特徵會遠大於另外一個特徵,那麼距離就會偏向特定的特徵。使數據正規化,對每一個值,減去每一個平均值,而後除以標準差學習

規範數據後,繪製數據視覺圖orm

說明:pandas

這一步是演示,練習代碼或者直接跳轉到下一步import

import  pandas csv

import matplotlib.pyplot as pltim

%matplotlib inline統計

#read data from csv數據

pga=pandas.read_csv("pga.csv")

#normalize the data

pga.distance=(pga.distance-pga.distance.mean())/pga.distance.std()

pga.accuracy=(pga.accurac-pga.accuracy.mean())/pga.accuracy.std()

print(pga.head())

plt.scatter(pga.distance,pga.accuracy)

plt.xlabel("normalized distance")

plt.ylabel("normalized accuracy")

plt.show()

相關文章
相關標籤/搜索