什麼是機器學習

除去一些可有可無的狀況,人們很難從原始數據自己找到有效的信息。例如,對於垃圾郵件的檢測,檢測一個單詞是否存在沒有太大做用,然而當某個特定的單詞(垃圾郵件的關鍵詞)同時出現時,再輔助其餘因素,人們就能夠判斷出該郵件是否爲垃圾郵件。算法

簡單的說,機器學習就是把無序的數據轉換成爲有用的信息,是一種數據分析的方法。網絡

機器學習

機器學習的主要任務


機器學習的兩大分類:機器學習

  • 監督學習
  • 非監督學習

監督學習的主要任務是分類和迴歸,由於這類算法必需要知道預測什麼,也就是目標的分類信息。編輯器

非監督學習的主要任務是聚類和密度估計,沒有類別信息,也不會有給定目標的值。學習

能夠理解爲監督學習能夠獲得的是一個結果,而非監督學習是一個過程。測試

監督學習-分類


機器學習主要任務之一分類。視頻

這讓我想到了香港電影《賭俠》裏面有段視頻,經過攝像機把對方的牌照下來並識別。
圖片設別
看到上圖,攝像機把設別的圖片分類兩類:65%是方塊7, 35%是方塊J。這個意思就是大概就是分類了。blog

機器學習的一些術語(在監督學習中)


1 特徵:也叫做屬性,好比鳥有體重,翼展,腳蹼和後背顏色,咱們能夠經過這些特徵來區分是哪些鳥。圖片

2 算法訓練:其實就是經過必定的算法來學習如何分類,好比給咱們一個新的特徵值,咱們如何判斷是哪一種鳥?開發

3 訓練集:訓練機器學習算法的數據樣本集合,這些訓練集須要知道分類的結果,也就是說咱們要知道100個鳥的名字和每一個鳥的特徵數據。

4 目標變量:每一個訓練集都有特徵和目標變量,目標變量是機器學習算法的預測結果。

5 測試集:測試機器學習算法的樣本數據。此數據沒有分類結果,須要輸入特徵值經過機器學習獲得目標變量。

開發機器學習的幾個步驟


步驟示意圖

1 收集數據。咱們可使用客戶提供的數據源也能夠本身寫網絡爬蟲找到本身想要的數據,數據越乾淨越好。

2 準備輸入數據。獲得數據後,經過必定方法須要把數據處理成程序能識別能分析的數據格式。

3 分析輸入數據。這個主要是人工分析準備輸入的數據是否有問題,確保前兩步都有效,最簡單的方法是打開到文筆編輯器看數據是否有空值。這步驟主要確保數據中沒有髒數據。

4 訓練算法。咱們將前兩部獲得的格式化數據輸入到算法中運算,從中抽取信息並存儲爲計算機可處理的格式,方便後續使用。無監督學習沒有這個步驟。

5 測試算法。實際運用第四部獲得的信息,經過一些方法對算法作評估。若對算法不滿意則能夠回到第4步或者更錢一步進行重複執行。

6 使用算法。將機器學習算法轉換爲應用程序,執行實際任務。來檢查上述步驟是否能夠在實際環境中正常工做。

相關文章
相關標籤/搜索