每一個部分由四節課組成,總共有16節課。那麼,從這篇開始,咱們將連續對這門課作課程筆記,共16篇,但願能對正在看這們課的童鞋有所幫助。下面開始第一節課的筆記:The Learning Problem。算法
什麼是「學習」?學習就是人類經過觀察、積累經驗,掌握某項技能或能力。就好像咱們從小學習識別字母、認識漢字,就是學習的過程。而機器學習(Machine Learning),顧名思義,就是讓機器(計算機)也能向人類同樣,經過觀察大量的數據和訓練,發現事物規律,得到某種分析問題、解決問題的能力。編程
機器學習能夠被定義爲:Improving some performance measure with experence computed from data. 也就是機器從數據中總結經驗,從數據中找出某種規律或者模型,並用它來解決實際問題。app
什麼狀況下會使用機器學習來解決問題呢?其實,目前機器學習的應用很是普遍,基本上任何場合都可以看到它的身影。其應用場合大體可概括爲三個條件:機器學習
事物自己存在某種潛在規律函數
某些問題難以使用普通編程解決工具
有大量的數據樣本可供使用學習
機器學習在咱們的衣、食、住、行、教育、娛樂等各個方面都有着普遍的應用,咱們的生活到處都離不開機器學習。好比,打開購物網站,網站就會給咱們自動推薦咱們可能會喜歡的商品;電影頻道會根據用戶的瀏覽記錄和觀影記錄,向不一樣用戶推薦他們可能喜歡的電影等等,處處都有機器學習的影子。網站
本系列的課程對機器學習問題有一些基本的術語須要注意一下:人工智能
輸入x3d
輸出y
目標函數f,即最接近實際樣本分佈的規律
訓練樣本data
假設hypothesis,一個機器學習模型對應了不少不一樣的hypothesis,經過演算法A,選擇一個最佳的hypothesis對應的函數稱爲矩g,g能最好地表示事物的內在規律,也是咱們最終想要獲得的模型表達式。
實際中,機器學習的流程圖能夠表示爲:
對於理想的目標函數f,咱們是不知道的,咱們手上拿到的是一些訓練樣本D,假設是監督式學習,其中有輸入x,也有輸出y。機器學習的過程,就是根據先驗知識選擇模型,該模型對應的hypothesis set(用H表示),H中包含了許多不一樣的hypothesis,經過演算法A,在訓練樣本D上進行訓練,選擇出一個最好的hypothes,對應的函數表達式g就是咱們最終要求的。通常狀況下,g能最接近目標函數f,這樣,機器學習的整個流程就完成了。
與機器學習相關的領域有:
數據挖掘(Data Mining)
人工智能(Artificial Intelligence)
統計(Statistics)
其實,機器學習與這三個領域是相通的,基本相似,但也不徹底同樣。機器學習是這三個領域中的有力工具,而同時,這三個領域也是機器學習能夠普遍應用的領域,總得來講,他們之間沒有十分明確的界線。
本節課主要介紹了什麼是機器學習,什麼樣的場合下可使用機器學習解決問題,而後用流程圖的形式展現了機器學習的整個過程,最後把機器學習和數據挖掘、人工智能、統計這三個領域作個比較。本節課的內容主要是概述性的東西,比較簡單,因此筆記也相對比較簡略。
這裏附上林軒田(Hsuan-Tien Lin)關於這門課的主頁:
http://www.csie.ntu.edu.tw/~htlin/
*註明:*
文章中全部的圖片均來自臺灣大學林軒田《機器學習基石》課程