《機器學習》 周志華 第1章 緒論

1. 引言算法

        機器學習致力於研究如何經過計算的手段,利用經驗來改善系統自身的性能。數據庫

        在計算機系統中,「經驗」一般以「數據」形式存在,所以,機器學習所研究的主要內容,是關於在計算機上從數據中產生「模型(model)」的算法,即「學習算法(learning algorithm)」。網絡

2. 基本術語機器學習

(1)數據集(data set):示例(或樣本)的集合;函數

(2)示例(instance)/樣本(sample):關於一個事件或對象的描述;性能

(3)屬性(attribute)/特徵(feature):反映事件或對象在某方面的表現或性質的事項;學習

(4)屬性值(attribute value):屬性上的取值;測試

(5)屬性空間(attribute space)/樣本空間(sample space)/輸入空間:屬性張成的空間;優化

(6)特徵向量(feature vector):因爲示例的不一樣屬性有着不一樣的屬性值,在屬性空間上每一個點都對應一個座標向量,所以也可把一個示例成爲一個特徵向量;spa

(7)維數(dimensionality):每一個示例屬性描述的個數; 

 

(8)學習(learning)/訓練(training):從數據中學得模型的過程,這個過程經過執行某個學習算法來完成;

(9)訓練數據(training data):訓練過程當中使用的數據;

(10)訓練樣本(training sample):訓練數據中的每一個樣本;

(11)訓練集(training set):訓練樣本組成的集合;

(12)假設(hypothesis):學得模型對應了關於數據的某種潛在規律;

(13)真相/真實(ground-truth):學得模型對應了關於數據的某種潛在規律自己;

(14)學習器(learner):模型;

(15)標記(label):關於示例結果的信息;

(16)樣例(example)擁有了標記信息的示例;

(17)標記空間(label space)/輸出空間:全部標記的集合;

(18)分類(classification):欲預測的是離散值的學習任務

        ①二分類(binary classification):只涉及兩個類別的分類,一般稱其中一個類爲「正類」(positive class),另外一個類爲「反類」(negative class),樣本空間一般爲Y={-1,+1}或{0,1};

        ②多分類(multi-class classification):設計多個類別的分類,樣本空間一般爲|Y|>2;

(19)迴歸(regression):欲預測的是連續值的學習任務,樣本空間一般爲Y=R,R是實數集;

(20)測試(testing):學得模型後使用其進行預測的過程;

(21)測試樣本(testing sample):預測時被預測的樣本;

(22)聚類(clustering):將訓練集中的樣本分紅若干組,每一個組稱爲一個「簇」(cluster);

(23)監督學習(supervised leaning)/有導師學習:如分類和迴歸;

(24)無監督學習(unsupervised learning)/無導師學習:如聚類;

(25)泛化(generalization):學得模型適用於新樣本的能力。

3. 假設空間

(1)概括(induction):從特殊到通常的「泛化」(generalization)過程,即從具體的事實歸結出通常性規律;

(2)演繹(deduction):從通常到特殊的「特化」(specialization)過程,即從基礎原理推演出具體情況;

(3)概括學習(inductive learning):廣義的概括學習大致至關於從樣例中學習,而狹義的概括學習則要求從訓練數據中學得概念(concept),所以亦稱爲「概念學習」或「概念造成」;

        咱們能夠把學習過程看做一個在全部假設(hypothesis)組成的空間中進行搜索的過程,搜索目標是找到與訓練集「匹配」(fit)的假設,即可以將訓練集中的樣本判斷正確的假設。

(4)版本空間(version space):存在着一個與訓練集一致的「假設集合」。

4. 概括偏好

(1)概括偏好(inductive bias)/偏好:機器學習算法在學習過程當中對某種類型假設的偏好;

        任何一個有效的機器學習算法必有其概括偏好,不然它將被假設空間中看似在訓練集上「等效」的假設所迷惑,而沒法產生肯定的學習效果。

(2)奧卡姆剃刀(Occam’s razor):一種經常使用的、天然科學研究中最基本的原則,即「如有多個假設與觀察一致,則選最簡單的那個」;

        概括偏好對應了學習算法自己所作出的關於「什麼樣的模型更好」的假設。在具體的現實問題中,這個假設是否成立,即算法的概括偏好是否與問題自己匹配,大多數時候直接決定了算法可以取得好的性能。

(3)沒有免費的午飯(No Free Lunch Theorem):因爲全部可能函數的相互補償,最優化算法的性能是等價的。該定理暗指,沒有其餘任何算法可以比搜索空間的線性列舉或者純隨機搜索算法更優。該定理只是定義在有限的搜索空間,對無限搜素空間結論是否成立尚不清楚。

5. 發展歷程

(1)20世紀50-70年代初:推理期。那時人們覺得只要能賦與機器邏輯推理能力,機器就具備智能;

(2)20世紀70年代中期開始:知識期。要使機器具備智能,就必須設法使機器擁有知識;

(3)20世紀80年代開始:廣義的概括學習(涵蓋了監督學習、無監督學習等)

①20世紀80年代:符號主義學習。其表明包括決策樹(decision tree)和基於邏輯的學習;

        典型的決策樹學習以信息論爲基礎,以信息熵的最小化爲目標,直接模擬了人類對概念進行斷定的樹形流程。

        基於邏輯的學習的著名錶明是概括邏輯程序設計(Inductive Logic Programming,簡稱ILP),ILP具備很強的知識表達能力,能夠較容易地表達出複雜數據關係,並且領域知識一般可方便得經過邏輯表達式進行描述。

②20世紀90年代中期以前:基於神經網絡的鏈接主義學習。與符號主義學習能產生明確的概念表示不一樣,鏈接主義學習產生的是「黑箱」模型,其最大的侷限是「試錯性」;

③20世紀90年代中期:統計學習(statistical learning)。表明性技術是支持向量機(Support Vector Machine,簡稱SVM)以及更通常的「核方法」(kernel methods)。

6. 應用現狀

(1)應用計算機科學的諸多分支學科領域;

(2)爲交叉學科提供重要技術支撐

        數據庫領域的研究爲數據挖掘提供數據管理技術,而機器學習和統計學的研究爲數據挖掘提供數據分析技術。統計學主要是經過機器學習對數據挖掘發揮影響,而機器學習領域和數據庫領域則是數據挖掘的兩大支撐。

總結體會

        機器學習經過對於輸入的足夠多的樣本進行數據計算、分析,而後得出一個具備對這種類型的樣本值廣泛適應的模型,這種模型可以對於新的測試樣本值進行分析從而得出合理的預測值。機器學習的重點與難點,就是如何經過數據得出模型,這也是須要長期研究和學習的。

        本章的學習讓我瞭解到什麼是機器學習,以及機器學習的基本術語與研究方法,但願經過從此的學習,可以更深入地理解到機器學習的精髓。

相關文章
相關標籤/搜索