【機器學習實戰】第1章 機器學習基礎

第1章 機器學習基礎

機器學習基礎_首頁

機器學習 概述

機器學習就是把無序的數據轉換成有用的信息。python

  1. 獲取海量的數據
  2. 從海量數據中獲取有用的信息

咱們會利用計算機來彰顯數據背後的真實含義,這纔是機器學習的意義。git

機器學習 場景

例如:識別動物貓
模式識別(官方標準):人們經過大量的經驗,獲得結論,從而判斷它就是貓。
機器學習(數據學習):人們經過閱讀進行學習,觀察它會叫、小眼睛、兩隻耳朵、四條腿、一條尾巴,獲得結論,從而判斷它就是貓。
深度學習(深刻數據):人們經過深刻了解它,發現它會'喵喵'的叫、與同類的貓科動物很相似,獲得結論,從而判斷它就是貓。(深度學習經常使用領域:語音識別、圖像識別)

模式識別(pattern recognition): 模式識別是最古老的(做爲一個術語而言,能夠說是很過期的)。
    咱們把環境與客體統稱爲「模式」,識別是對模式的一種認知,是如何讓一個計算機程序去作一些看起來很「智能」的事情。
    經過融於智慧和直覺後,經過構建程序,識別一些事物,而不是人,例如: 識別數字。
機器學習(machine learning): 機器學習是最基礎的(當下初創公司和研究實驗室的熱點領域之一)。
    在90年代初,人們開始意識到一種能夠更有效地構建模式識別算法的方法,那就是用數據(能夠經過廉價勞動力採集得到)去替換專家(具備不少圖像方面知識的人)。
    「機器學習」強調的是,在給計算機程序(或者機器)輸入一些數據後,它必須作一些事情,那就是學習這些數據,而這個學習的步驟是明確的。
    機器學習(Machine Learning)是一門專門研究計算機怎樣模擬或實現人類的學習行爲,以獲取新的知識或技能,從新組織已有的知識結構使之不斷改善自身性能的學科。
深度學習(deep learning): 深度學習是很是嶄新和有影響力的前沿領域,咱們甚至不會去思考-後深度學習時代。
    深度學習是機器學習研究中的一個新的領域,其動機在於創建、模擬人腦進行分析學習的神經網絡,它模仿人腦的機制來解釋數據,例如圖像,聲音和文本。

參考地址: 
http://www.csdn.net/article/2015-03-24/2824301
http://baike.baidu.com/link?url=76P-uA4EBrC3G-I__P1tqeO7eoDS709Kp4wYuHxc7GNkz_xn0NxuAtEohbpey7LUa2zUQLJxvIKUx4bnrEfOmsWLKbDmvG1PCoRkJisMTQka6-QReTrIxdYY3v93f55q

機器學習已應用於多個領域,遠遠超出大多數人的想象,橫跨:計算機科學、工程技術和統計學等多個學科。github

  • 搜索引擎: 根據你的搜索點擊,優化你下次的搜索結果。
  • 垃圾郵件: 會自動的過濾垃圾廣告郵件到垃圾箱內。
  • 超市優惠券: 你會發現,你在購買小孩子尿布的時候,售貨員會贈送你一張優惠券能夠兌換6罐啤酒。
  • 郵局郵寄: 手寫軟件自動識別寄送賀卡的地址。
  • 申請貸款: 經過你最近的金融活動信息進行綜合評定,決定你是否合格。

機器學習 組成

主要任務

  • 分類:將實例數據劃分到合適的類別中。
  • 迴歸:主要用於預測數值型數據。(示例:數據經過給定數據點來擬合最優曲線)

監督學習

  • 必須肯定目標變量的值,以便機器學習算法能夠發現特徵和目標變量之間的關係。 (包括:分類和迴歸)
  • 樣本集:訓練數據 + 測試數據
    • 訓練樣本 = 特徵(feature) + 目標變量(label: 分類-離散值/迴歸-連續值)
    • 特徵一般是訓練樣本集的列,它們是獨立測量獲得的。
    • 目標變量: 目標變量是機器學習預測算法的測試結果。
      • 在分類算法中目標變量的類型一般是標稱型(如:真與假),而在迴歸算法中一般是連續型(如:1~100)。
  • 知識表示
    1. 能夠採用規則集的形式【例如:數學成績大於90分爲優秀】
    2. 能夠採用機率分佈的形式【例如:經過統計分佈發現,90%的同窗數學成績,在70分如下,那麼大於70分定爲優秀】
    3. 可使用訓練樣本集中的一個實例【例如:經過樣本集合,咱們訓練出一個模型實例,得出 年輕,數學成績中高等,談吐優雅,咱們認爲是優秀】

非監督學習

  • 數據沒有類別信息,也不會給定目標值。
  • 聚類:在無監督學習中,將數據集分紅由相似的對象組成多個類的過程稱爲聚類。
  • 密度估計:將尋找描述數據統計值的過程稱之爲密度估計。【就是:根據訓練樣本肯定x的機率分佈】
  • 此外,無監督學習還能夠減小數據特徵的維度,以便咱們可使用二維或三維圖形更加直觀地展現數據信息。

訓練過程

機器學習訓練過程圖

算法彙總

算法彙總

機器學習 使用

選擇算法須要考慮的兩個問題算法

  1. 算法場景
    • 預測明天是否下雨,由於能夠用歷史的天氣狀況作預測,因此選擇監督學習算法
    • 給一羣陌生的人進行分組,可是咱們並無這些人的類別信息,因此選擇無監督學習算法、經過他們身高、體重等特徵進行處理。
  2. 須要收集或分析的數據是什麼

舉例apache

選擇算法圖

機器學習 開發流程網絡

* 收集數據: 收集樣本數據
* 準備數據: 注意數據的格式
* 分析數據: 爲了確保數據集中沒有垃圾數據;
    若是是算法能夠處理的數據格式或可信任的數據源,則能夠跳過該步驟;
    另外該步驟須要人工干預,會下降自動化系統的價值。
* 訓練算法: [機器學習算法核心]若是使用無監督學習算法,因爲不存在目標變量值,則能夠跳過該步驟
* 測試算法: [機器學習算法核心]評估算法效果
* 使用算法: 將機器學習算法轉爲應用程序

Python語言 優點

  1. 可執行僞代碼
  2. Python比較流行:使用普遍、代碼範例多、豐富模塊庫,開發週期短
  3. Python語言的特點:清晰簡練、易於理解
  4. Python語言的缺點:惟一不足的是性能問題
  5. Python相關的庫
    • 科學函數庫:SciPyNumPy(底層語言:C和Fortran)
    • 繪圖工具庫:Matplotlib

相關文章
相關標籤/搜索