機器學習基本概念

**Machine Learning:**A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.算法

###1、什麼是機器學習?(What) 上面的概念那面有些抽象,要理解什麼是機器學習,其實能夠類比於人類的學習。假設一個場景:父母教三歲大的孩子認識什麼是西瓜。首先父母要給孩子看西瓜,而後告訴孩子這個是西瓜。這個過程抽象成下面這張流程圖: what is machine learning.png 孩子的學習過程是經過一些觀察,而後加上自我總結,就逐漸擁有了識別什麼是西瓜的技能。 與之相相似,機器學習就是經過對數據的「學習」,從而擁有某些特定技能的過程。(那技能是什麼呢?技能是某種表現的增進,例如我經過每天練習投籃,逐漸命中率達到必定水準,我就擁有了投籃技能。)框架

###2、爲何要使用機器學習?(Why) 對於不一樣的問題,咱們選擇機器學習的緣由不一樣,這些問題按照對於人類的難易來講,能夠分爲兩類: 1.很簡單的問題: 例如:識別手寫的數字是幾,這對於人類來講是一個極易的問題,那爲何咱們還要使用機器學習呢?由於經過機器學習的方式,咱們可讓機器來幫咱們作這些「單調乏味」的工做,讓機器掌握識別手寫數字的技能以後,咱們就能讓他們幫咱們來分揀信件。若是把這項技能再進一步,讓機器掌握識別並理解地址信息,咱們甚至能夠用機器來分揀快遞。 2.很複雜的問題: 例如:根據用戶信息,給不一樣的用戶推薦不一樣的廣告。對於人類來講,這幾乎是不可能的問題,由於不一樣的用戶有不一樣的特徵,怎麼從這些海量的特徵中判斷每個用戶的喜愛是什麼呢?而且用戶的喜愛可能還在發生變化,舉個通俗一點的例子,好比某些用戶去年還喜歡吃西瓜,今年就討厭西瓜了。所以,從海量的數據中去人爲的總結規律有很大的侷限性,而使用機器學習的方式使得這類問題變得簡單。機器學習

###3、何時可使用機器學習?(When) 1.存在某些隱含的模式(underlying pattern)能夠被學習到。 舉一個反例:預測某個嬰兒下一次哭是奇數分鐘哭,仍是偶數分鐘哭。這幾乎是一個隨機事件,因此不存在任何隱含的模式,所以也就不能使用機器學習的方式來解答。 2.不是很容易總結規律的問題。 若是規律很容易總結,那固然就不用使用機器學習了,直接代碼實現便可。 3.有相關的數據。 舉一個反例:預測世界末日何時到來。顯然,由於咱們沒有世界末日發生的相關數據,因此這個問題也沒法用機器學習的方式來解答。分佈式

###4、機器學習的組成 machine learning combination.png 上圖能夠看做是整個機器學習過程的組成。 首先從咱們的數據出發,它們的具體形式是x到y的映射,好比咱們的問題是預測某套房子的房價。那麼個人X包括房子面積、房子樓層、是不是電梯房等等特徵,Y就是房子的價格。正由於存在某種規律,才使得咱們得到的數據按照訓練集的每個x對應惟一一個y。咱們用 f 來表示這個X到Y的映射關係(即隱含規律)。 那麼如何去求得這個 f 呢?通常地,咱們首先會把範圍擴大到一個假設集合(稱做 H ),好比咱們假設房子價格與它的全部特徵都是呈線性關係,那麼這個假設集合就是一個線性假設集,那如何在這個無限大的假設集 H 中找到咱們想要獲得的 f 呢,那就須要經過機器學習演算法來實現,咱們用 A 表示這個算法。 那這樣咱們就能求得 f 了嗎?答案是否認的,由於不少時候因爲數據噪聲等緣由,咱們沒法得到一個精確的 f ,而只能得到某一個映射關係 g ,使得 g 最接近這個 f,咱們把這個 g 稱爲最終預測。 通常地,機器學習爲了求得隱含的規律,在假設集合上經過演算法對訓練集進行「訓練」,使求得的預測規律最接近隱含規律。學習

###5、機器學習、數據挖掘、人工智能、統計學的關係 #####機器學習: 利用數據計算出一個近似隱含規律的預測規律。 #####數據挖掘: 利用海量的數據去尋找一些有意思的數據特徵、規律。 機器學習與數據挖掘的關係: 若是數據挖掘的目標是去尋找數據間的隱含規律,那麼數據挖掘和機器學習作的事情是同樣的。可是傳統的數據挖掘老是着眼於大數據的高效計算。(好比分佈式計算框架) #####人工智能: 讓計算機作(模擬)一些像人同樣的智能行爲。 機器學習與人工智能的關係: 機器學習是實現人工智能的一種途徑,除此以外,還有一些其餘的方式能夠實現人工智能。 #####統計學: 利用數據對一些未知的過程作預測。 機器學習與統計學的關係: 統計學的不少知識均可以被借鑑到機器學習中,可是機器學習中也有不少算法不是基於統計學的規律的。大數據

參考資料: 《機器學習基石》【林軒田】(來源於Youtube)人工智能

相關文章
相關標籤/搜索