今天的文章是機器學習的導論,這會像Python基礎教程和爬蟲教程同樣是一個連載系列,可是在機器學習領域本身還沒入門,只是經過一次比賽接觸到機器學習使用了幾個模型罷了,這個系列單純把本身學習筆記和學習體會分享給你們,更新可能會比較慢,期待你們一塊兒進步。面試
/ 01 / 什麼是機器學習?算法
首先,必須澄清一個關於機器學習的最大錯誤觀念:編程
機器學習≠算法數據結構
機器學習是與算法無關的,機器學習是解決問題的綜合方法,也能夠說機器學習=尋找一種函數。這個函數能夠:機器學習
語音識別:輸入一段語音信號輸出文字
f( )="how are you "
圖像識別:輸入圖片,輸出圖片的屬性
f( )="cat"
圖像識別:輸入圖片,輸出圖片的屬性
f( )="5*5"
複製代碼
機器學習是教會計算機如何從數據中學習模式的作法,一般用於作出決策或預測。對於真正的機器學習,計算機必須可以學習未明確編程識別的模式。函數
例如:好奇的孩子性能
一個小孩正在家裏玩......他看到一支蠟燭!他當心翼翼地蹣跚而行。 1.出於好奇,他把手伸到蠟燭火焰上。 2.「哎喲!」他大聲喊道,他把手拉回來。 3.「嗯...... 紅色和明亮的 東西真疼!」學習
兩天後,他正在廚房裏玩......他看到了一個爐竈!他再一次當心翼翼地蹣跚而行。 1.他又好奇了,他正想着伸出手來。 2.忽然,他注意到它是 紅色和明亮的! 3.「啊......」他對本身說,「不是今天!」 4.他記得 紅色和明亮 意味着痛苦,他忽略了爐頂。 要清楚,它只是機器學習,由於孩子從蠟燭中學習模式,他了解到「紅色和明亮的模式意味着痛苦」另外一方面,若是他僅僅由於他的父母警告他而忽略了爐頂,那就是「明確的編程」而不是機器學習。測試
/ 02 / 學習路線spa
監督學習 監督學習包括「標記」數據的任務(即有一個目標變量)簡單的來講就是在有數據標註的狀況下進行學習。在實踐中,它一般用做預測建模的高級形式,每一個觀察必須用「正確答案」標記,只有這樣你才能創建一個預測模型,由於你必須在訓練時告訴算法什麼是「正確的」(所以,「監督」它)。
這裏還有兩個名詞須要你們理解,第一個是迴歸:迴歸問題,尋找函數f的輸出爲一個數值。通常用於預測。該問題通常是經過大量的訓練數據,找到相對正確的函數。第二個是分類:是對分類(又稱「類")目標變量進行建模的任務,分類問題能夠分爲二分類和多分類。
無監督學習
無監督學習包括「未標記」數據的任務(即沒有目標變量)簡單來講無監督學習就是在沒有具體數據標註的狀況下進行學習。在實踐中,它一般用做自動數據分析或自動信號提取的一種形式,例如:機器閱讀:機器在大量的文檔中學會詞語的意思。未標記的數據沒有預先肯定的「正確答案」。容許算法直接從數據中學習模式(沒有「監督」)。 聚類 是最多見的無監督學習任務,它用於查找 數據中的組。
/ 03 / 過擬合
不管在機器學習仍是深度學習建模當中均可能會遇到兩種最多見結果,一種叫過擬合(over-fitting )另一種叫欠擬合(under-fitting)。
所謂過擬合(over-fitting)其實就是所建的機器學習模型或者是深度學習模型在訓練樣本中表現得過於優越,致使在驗證數據集以及測試數據集中表現不佳。
打個比喻就是當我須要創建好一個模型以後,好比是識別一隻狗狗的模型,我須要對這個模型進行訓練。剛好,我訓練樣本中的全部訓練圖片都是二哈,那麼通過屢次迭代訓練以後,模型訓練好了,而且在訓練集中表現得很好。基本上二哈身上的全部特色都涵括進去,那麼問題來了!假如個人測試樣本是一隻金毛呢?將一隻金毛的測試樣本放進這個識別狗狗的模型中,頗有可能模型最後輸出的結果就是金毛不是一條狗(由於這個模型基本上是按照二哈的特徵去打造的)。因此這樣就形成了模型過擬合,雖然在訓練集上表現得很好,可是在測試集中表現得剛好相反,在性能的角度上講就是協方差過大(variance is large),一樣在測試集上的損失函數(cost function)會表現得很大。
欠擬合呢(under-fitting)?相對過擬合欠擬合仍是比較容易理解。仍是拿剛纔的模型來講,可能二哈被提取的特徵比較少,致使訓練出來的模型不能很好地匹配,表現得不好,甚至二哈都沒法識別
過擬合產生的緣由
噪聲:永遠沒有完美的數據,數據裏的噪聲會影響模型的學習。 假規律: 樣本量較少時,學習器卻很複雜時,學習器會過分解讀學到不少假的可是在這少數幾個樣本擁有的規律。
寫在最後:
今天的文章只是對機器學習作一個簡單的介紹,你們有什麼不懂的問題歡迎留言交流。
公衆號【Ahab雜貨鋪】若是你是小白你應該關注公衆號,若是你是大牛你更應該關注。公衆號免費分享Python基礎&進階,數據分析挖掘和機器學習相關知識,全部技術文章層層遞進,帶你按部就班的學習。爲了鞏固數據結構知識,按期打卡刷LeetCode,分享面試經驗,鍛鍊編程能力化身Offer收割機,另外公衆號會不按期給粉絲送福利,總之我是強烈推薦關注【Ahab雜貨鋪】的!
參考文獻: