1.數據的介紹算法
咱們的數據集pga.csv包含專業高爾夫球手的兩列統計數據,accuracy 和distance。 accuracy 是測量在球場上屢次揮杆的命中百分比,distance是測量平均揮杆球的距離。咱們的目標是使用距離來預測精度。機器學習
對於機器學習算法而言,數據被使用以前,重要的是規模,或者正規化。這裏咱們在球場上測量的distance,和測量的百分比accuracy,這兩個領域很是不一樣,會學習算法的時候產生誤差。許多算法計算二者間的歐氏距離。若是一個特徵會遠大於另外一個特徵,那麼距離就會偏向特定的特徵。使數據正規化,對每一個值,減去每一個平均值,而後除以標準差學習
規範數據後,繪製數據視覺圖orm
說明:pandas
這一步是演示,練習代碼或者直接跳轉到下一步import
import pandas csv
import matplotlib.pyplot as pltim
%matplotlib inline統計
#read data from csv數據
pga=pandas.read_csv("pga.csv")
#normalize the data
pga.distance=(pga.distance-pga.distance.mean())/pga.distance.std()
pga.accuracy=(pga.accurac-pga.accuracy.mean())/pga.accuracy.std()
print(pga.head())
plt.scatter(pga.distance,pga.accuracy)
plt.xlabel("normalized distance")
plt.ylabel("normalized accuracy")
plt.show()