吳恩達《機器學習》課程筆記——第一章:緒論 初識機器學習

上一篇  ※※※※※※※※ 【回到目錄】  ※※※※※※※※  下一篇html


1.1 什麼是機器學習

卡內基梅隆大學的Tom Mitchell提出了一種機器學習的定義:電腦程序要完成任務(T),若是電腦程序獲取關於任務(T)的經驗(E)越多,就表現(P)越好,那麼就能夠說這個程序「學習」了關於任務(T)的經驗。舉個例子,Samuel編寫了一個西洋棋程序。該程序要完成下棋的任務(T),西洋棋程序本身跟本身下了上萬盤棋,並總結更容易贏的佈局方式(E),該經驗越多,那麼程序就越清楚什麼是好的佈局,什麼是很差的佈局,該下棋程序表現更佳(P)。算法

咱們不只要掌握機器學習的算法,更重要的是也須要熟知每一種算法怎麼使用。熟知不一樣算法的使用方法能夠極大地提升效率,避免沒必要要的麻煩。目前的學習算法可主要分爲兩種,即監督學習和無監督學習,在下面的章節中具體介紹。數據庫


1.2 監督學習

我將監督學習和無監督學習概括總結成下圖:微信

監督學習指的就是咱們給學習算法一個數據集,這個數據集由「正確答案」組成。好比在預測房價問題中,咱們給了一系列房子的數據,咱們給定數據集中每一個樣本的正確價格(即它們實際的售價),而後運用學習算法,算出更多的正確答案。用術語來說,這叫作迴歸問題。關於迴歸:迴歸是指變量之間的統計關係。①若先有模型,則已知X可求Y;②而「迴歸」的意思就是咱們經過收集X與Y來肯定實際上存在的關係模型:收集X、Y,從而肯定模型。
網絡

再舉一個監督學習的例子:假設說你想經過查看病從來推測乳腺癌是否爲良性。讓咱們來看一組數據:這個數據集中,橫軸表示腫瘤的大小,縱軸上,我標出1和0表示是或者不是惡性腫瘤。若是是惡性則記爲1,不是惡性或者說良性記爲0。機器學習

 

我有5個良性腫瘤樣本,在1的位置有5個惡性腫瘤樣本。那麼機器學習的問題就在於,你可否估算出腫瘤是惡性的或是良性的機率。用術語來說,這是一個分類問題。關於分類:分類是指推測出離散的輸出值,0或者1。事實上分類問題不只有二值分類,還有多元分類。如但願預測的離散輸出爲0、一、二、3。在其它一些機器學習問題中,可能會遇到不止一種特徵。舉個例子,咱們不只知道腫瘤的尺寸,還知道對應患者的年齡。在其餘機器學習問題中,咱們一般有更多的特徵。佈局

 

 圖中右側的英文翻譯爲:clump thickness(腫塊厚度)、uniformity of Cell Size(腫瘤細胞尺寸的一致性)、uniformity of Cell Shape(腫瘤細胞形狀的一致性)。學習

以上就是監督學習的內容。spa


1.3 無監督學習

對於監督學習裏的每條數據,咱們已經清楚地知道,訓練集對應的正確答案(right answers given)。而無監督學習中,沒有任何的標籤或者是有相同的標籤或者就是沒標籤。針對數據集,無監督學習就能判斷出數據有兩個不一樣的彙集簇。這是一個,那是另外一個,兩者不一樣。無監督學習算法可能會把這些數據分紅兩個不一樣的簇。因此叫作聚類算法。翻譯

無監督學習的應用實例:①新聞事件分類:谷歌新聞天天都在,收集很是多,很是多的網絡的新聞內容。它再將這些新聞分組,組成有關聯的新聞。因此谷歌新聞作的就是搜索很是多的新聞事件,自動地把它們聚類到一塊兒。②市場分割:許多公司有大型的數據庫,存儲消費者信息。因此,檢索這些顧客數據集,自動地發現市場分類,並自動地把顧客劃分到不一樣的細分市場中,才能自動並更有效地銷售或不一樣的細分市場一塊兒進行銷售。

 

 

以上,就是吳恩達機器學習課程第一章的主要內容。

 

若是這篇文章幫助到了你,或者你有任何問題,歡迎掃碼關注微信公衆號:一刻AI  在後臺留言便可,讓咱們一塊兒學習一塊兒進步!

 

 

【重要提示】:本人機器學習課程的主要學習資料包括:吳恩達教授的機器學習課程和黃廣海博士的中文學習筆記。感謝吳恩達教授和黃廣海博士的知識分享和無私奉獻。做爲機器學習小白,計劃每週末記錄一週以來的學習內容,總結回顧。但願你們多多挑錯,也願個人學習筆記能幫助到有須要的人。

相關文章
相關標籤/搜索