Day1 《機器學習》第一章學習筆記

  《機器學習》這本書算是很好的一本瞭解機器學習知識的一本入門書籍吧,是南京大學周志華老師所著的鴻篇大做,很早就聽聞周老師大名了,算是國內機器學習領域少數的大牛了吧,恰好研究生作這個方向相關的內容,因此今天買了一本所謂的西瓜書,準備研讀,光讀書記性很差,邊讀邊作筆記練習印象深入,接下來我就把本身的學習過程按每章節的內容整理以下:算法

 

Day1 第一章 緒論部分

       本書做者周志華老師經過聊天的口吻開篇,以平常生活的小案例和場景,向讀者介紹什麼是機器學習,以及什麼是學習算法。在這一章介紹了不少機器學習相關的術語概念。網絡

       首先,要作學習,先得有數據,咱們要學習的對象記錄收集起來組成的集合叫作一個「數據集(data set)」,把裏面記錄、對象的描述,稱爲一個「示例(instance)」或者「樣本(sample)」,反應集合內事件或對象在某方面的表現或性質的事項,咱們把它稱爲「屬性(attribute)」或「特徵(feature)」,屬性張成的空間稱爲「屬性空間(attribute space)」、 「樣本空間(sample space)」 或者「輸入空間」,因爲空間中的每個點對應一個座標向量,所以咱們把一個示例稱爲一個「特徵向量(feature vector)」,這裏的屬性數量就是咱們說的樣本的「維數(dimensionality)」機器學習

       上面獲得了數據了,咱們要從數據中學得模型的過程叫「學習(learning)」或者「訓練(training)」,在這個過程執行某個學習算法來完成,訓練的過程使用的數據稱爲「訓練數據(集)(training data)」,這其中的每個小樣本叫一個「訓練樣本(training sample)」,訓練樣本構成的集合組成的集合叫作「訓練集training set」,訓練獲得的模型對應數據的某種潛在的規律,把這種結果稱爲「假設(hypothesis)」,咱們要用學習的結果來「預測(prediction)」,用學得模型進行預測的過程稱爲「測試(testing)」,被預測的樣本叫「測試樣本(testing sample)」。ide

       咱們要預測的是離散值,這類學習任務稱爲「分類(classification)」,要預測的是連續值,把這類學習任務稱爲「迴歸(regression)」,固然咱們也能夠對數據作「聚類(clustering)」,即把訓練集中的對象分紅若干組,每一個組稱爲一個「簇(cluster)」。學習

       咱們根據訓練數據是否擁有標記信息,學習任務可大體分爲兩大類:「監督學習(supervised learning)」和「無監督學習(unsupervised learning)」,分類和迴歸是前者的表明,聚類是後者的表明。測試

       學得的模型適用於新樣本的能力,稱爲「泛化(generation)」。大數據

       一般,咱們假設樣本空間中全體樣本服從一個未知「分佈(distribution)」,咱們得到的每個樣本都是獨立從這分佈上採樣獲得的,即「獨立同分布(independent and identically distributed簡稱i.i.d.)」。人工智能

       概括(induction)和演繹(deduction)是科學推理的兩大基本手段,前者是從特殊到通常的「泛化(generation)」過程,後者是通常到特殊的「特化(specialization)」過程,如數學上由數學公理推出與之相洽的定理,這是演繹過程,而「從樣本中學習」是一個概括過程,叫作「概括學習(inductive learning)」。spa

       概括學習中有概括偏好,這裏遵循奧卡姆剃刀原則。對象

       發展歷程:機器學習是人工智能(artificial intelligence)研究發展到必定階段的必然產物。二十世紀五十年代到七十年代,人工智能研究處於「推理期」,那時的人們認爲只要能賦予機器邏輯推理能力,機器就能擁有智能。二十世紀七十年代中期開始,人工智能研究進入「知識期」,這一時期大量的專家系統問世。二十世紀八十年代是機器學習成爲一個獨立的學科領域,各類機器學習技術百花初綻的時期。二十世紀九十年代中期,「統計學習(statistical learning)」閃亮登場並迅速佔據主流舞臺,表明技術是支持向量機(Support Vector Machine,簡稱SVM)以及更通常的「核方法(kernel methods)」。二十一世紀初,鏈接主義學習又捲土歷來(五十年代中後期基於神經網絡的「鏈接主義」),掀起了以「深度學習」爲名的熱潮,所謂深度學習,狹義地說就是「不少層」的神經網絡

       如今,機器學習已經發展成爲一個至關大的學科領域,當今算力的提高和大數據的加持,逐步把機器學習推向高潮。

  (第一章筆記到此,繼續學習後續章節)

相關文章
相關標籤/搜索