摘自《機器學習實戰》,感受思路比較清晰算法
一,收集數據。可使用不少種方法收集樣本數據,例如製做網絡爬蟲從網站上爬取數據,從RSS反饋或者API中獲得信息,設備發送過來的實測數據(風速,血糖等)。網絡
二,準備輸入數據。獲得數據以後,還必須確保數據格式符合要求,使用標準數據格式後能夠融合算法和數據源,方便匹配操做。此外還須要爲機器學習準備特定的數據格式,如某些算法要求特徵值使用特定的格式,一些算法要求目標變量和特徵值是字符串類型,而另外一些算法可能要求是整數類型。機器學習
三,分析輸入數據。此步驟主要是人工分析之前獲得的數據。爲了確保前兩步有效,最簡單的方法是用文本編輯器打開數據文件,查看獲得的數據是否爲空值,此外還能夠進一步瀏覽數據,分析是否能夠識別出模式:數據中是否存在明顯的異常值,如某些數據點與數據集中的其它值明顯存在差別。經過一維,二維三維圖形展現數據也是不錯的方法。編輯器
這一步主要做用是確保數據集中沒有垃圾數據,若是產品化系統中使用機器學習算法而且算法能夠處理系統產生的數據格式,或者咱們信任數據來源,能夠直接跳過這一步。學習
四,訓練算法。機器學習算法到這一步纔是真正的開始學習。根據算法不一樣,第四步和第五步是機器學習算法的核心。咱們將前兩步獲得的格式化數據輸入到算法,從中抽取知識或信息。這裏獲得的知識須要存儲爲計算機能夠處理的格式,方便後續步驟使用。測試
若是使用非監督學習算法,因爲不存在目標變量值,所以也不須要訓練算法,全部與算法相關的內容都集中在第五步網站
五,測試算法。這一步將實際使用第四步機器學習獲得的知識信息。爲了評估算法,必須測試算法工做的效果。對於監督學習,必須已知用於評估算法的目標變量值,對於非監督學習,也必須用到其它的評測手段來檢驗算法的成功率。不管那種情形,若是不滿意算法的輸出結果,則能夠回到第四步,改正並加以測試。問題經常會跟數據的收集與整理有關,這時就要跳到第一步從新開始。字符串
六,使用算法。將機器學習算法轉換爲應用程序,執行實際任務,以檢驗上述步驟是否能夠在實際環境中正常工做,此時若是遇到新的數據問題,一樣須要重複執行上述的步驟。產品
這些思路步驟能更好的規範本身,幫助造成本身的分析思路,也是一個把本身作了什麼更加有調理說出來的方法!變量