爲了測試機器學習算法的效果,一般使用兩套獨立的樣本集:訓練數據和測試數據。當機器算法
學習程序開始運行時,使用訓練樣本集做爲算法的輸人,訓練完成以後輸人測試樣本。輸人測試
機器學習
樣本時並不提供測試樣本的目標變量,由程序決定樣本屬於哪一個類別。比較測試樣本預測的目標學習
變量值與實際樣本類別之間的差異,就能夠得出算法的實際精確度測試
2.spa
考慮使用機器學習算法的目的。若是想要預測目標變量的值,則能夠選擇監督學習算法,開發
不然能夠選擇無監督學習算法。肯定選擇監督學習算法以後,須要進一步肯定目標變量類型,如變量
果目標變量是離散型,如是/否、1/2/三、― 冗或者紅/黃/黑等,則能夠選擇分類器算法;若是目程序
標變量是連續型的數值,如0.0~ 100.00、-999~999或者+00~-00等,則須要選擇迴歸算法。數據
若是不想預測目標變量的值,則能夠選擇無監督學習算法。進一步分析是否須要將數據劃分
爲離散的組。若是這是惟一的需求,則使用聚類算法;若是還須要估計數據與每一個分組的類似程
度,則須要使用密度估計算法。
3.開發機器學習應用程序的步驟
(1) 收集數據
(2) 準備輸入的數據
(3) 分析輸入的數據
(4) 訓練算法