機器學習初體驗

剛看《機器學習系統設計》,邊看邊理解造成了如下心得。
機器學習其實不是新的技術,前兩年它的名字叫數據挖掘或預測分析。和統計學的關聯很是大,統計學是研究現有的大量數據,來幫助人更好的理解數據。機器學習其實也是相似的過程。機器根據現有的大量訓練數據,計算出指定特徵的最優參數,獲得模型,而後用測試數據對模型進行驗證,驗證符合必定的準確率條件就獲得一個能夠用於生產的模型。算法

概覽

機器學習的處理對象是數據,這些數據通常從應用採集而來,採集的過程,機器學習是不關注的。機器學習的入口是就是採集到的一堆數據,通常還有對元數據的介紹和相關的背景知識。
前面說的比較抽象,這節用一張圖來描述機器學習的主要工做流程。
clipboard.png數據結構

理解數據

有了元數據,只知道這些數據column的領域,但對數據的特色並不瞭解,因此第一步就是讀取數據,讓數據到程序的數據結構中來,經過工具咱們能夠把玩數據,進而使用工具去分析數據的分佈,掌握數據的特色,另外採集的數據中有些異常這也是很是正常的,清洗工做不可避免。
這個過程是一個反覆的過程,須要經過屢次探索,才能對數據有必定深度的理解。機器學習

機器學習

機器學習部分並非徹底的機器去學,數據特徵的識別、模型的肯定、算法的選擇都是數據科學家要乾的事情。選定算法後,咱們可能發現,初始的數據不能知足算法處理的須要。因此爲適配算法可能還須要對數據進行提煉。
數據提煉的過程是體現數據科學家價值的美好時刻,一個簡單算法在提煉後數據上的表現,可以超過一個複雜算法在原始數據上的效果。
而機器學習的機器部分,就是讓機器根據數據科學家設定的路徑進行處理,而後獲得模型。這部分工做是比較適合機器去作的。工具

評估

一個模型好很差,評估條件很重要。評估每每和具體的場景有關,有時咱們比較關注處理效率,有時咱們更關注準確率,有時錯誤的判斷對目標影響很大。好比垃圾郵件識別的場景,把一個正確郵件刪除的影響要大於把錯誤的放過一個垃圾郵件的影響。學習

相關文章
相關標籤/搜索