後記轉載請標明出處算法
報告題目:機器學習:發展與將來機器學習
報告人:周志華函數
演講摘要:在過去二十年中,人類收集、存儲、傳輸、處理數據的能力取得了飛速發展,亟需能有效地對數據進行分析利用的計算機算法。機器學習做爲智能數據分析算法的源泉,順應了大時代的這個迫切需求,所以天然地取得了巨大的發展、受到了普遍關注。性能
機器學習是從人工智能中產生的一個重要學科分支,是實現智能化的關鍵。它的經典定義是:利用經驗改善系統自身的性能。將經驗轉化爲數據。隨着該領域的發展,目前主要研究智能數據分析的理論和算法,並已成爲智能數據分析技術的源泉之一。學習
文章篩選的故事:邀請專家閱讀少許的文章,專家將文章標記爲「有關」或者「無關」,基於這個信息創建一個分類模型,再根據這個模型來對其餘的文章進行預測。ui
典型的機器學習的過程:先收集到數據,數據是表格的形式,每一行表示一個對象或一個實例,每一列刻畫了一個對象的一個屬性,其中有一列咱們管它叫作類別標記。人工智能
咱們對這些數據進行訓練獲得模型。從此,當咱們拿到一個咱們沒有見過的數據的時候,咱們知道它的輸入,把輸入輸入到這個模型,這個模型就會給你一個結果(好比西瓜好仍是很差)。因此咱們在現實生活中遇到的分類、推測這類問題均可以抽象出來。比較重要的是如何對數據進行學習來獲得這個模型(使用學習算法)。.net
深度學習對象
一、提高模型複雜度->提高學習能力blog
增長隱層神經元數目(模型寬度)增長函數個數
增長隱層數目(模型深度)增長了函數的個數同時增長了函數的層數:增長隱層數目比增長隱層神經元數目更加有效,不只增長了擁有激活函數的神經元數,還增長了激活函數嵌套的層數。
二、提高模型複雜度->增長過擬合風險(由於模型過於複雜),增長計算開銷
過擬合風險解決可使用大量訓練數據,複雜的模型使用強力計算設備來計算
深度學習還須要訣竅。
將來機器學習可能的問題:難以適應環境變化、難以瞭解模型、難以獲取充足樣本、難以得到專家級結果、難以免數據泄漏。
此外,即使相同的數據,普通用戶也很難活得機器學習專家級性能。
關於將來的淺見:開放環境學習任務,魯棒性是關鍵。
提出了一個學件(learn ware)的概念
學件(learnware)=模型(model)+規約(specification)
已經由別人作了機器學習的應用了而且很樂意將本身的模型分享出來,放在一個平臺。其餘人能夠在這個平臺中查找有沒有本身適用的模型。部分重用他人結果,用本身的數據去打磨這個模型。規約須要可以給出模型的合適刻畫。而模型須要知足:可重用,可演進,可瞭解。
可重用:學件的預訓練模型僅須要利用「少許數據」對其進行更新或加強便可用於新任務。
可演進:學件的預訓練模型應具有感知環境變化,並針對變化進行主動自適應調整的能力。
可瞭解:學件的模型應在必定程度上能被用戶瞭解(包括其目標、學得結果、資源要求、典型任務上的性能等),不然,將難以給出模型的功能規約,經過重用、演進後得到的模型的有效性和正確性也難以保障。
機器學習小結:
一、深度學習可能會有冬天,它僅是機器學習的一種技術,更潮的技術總會出現。
二、機器學習不會有冬天:除非咱們再也不須要分析數據。
三、關於將來:
技術:能有效利用GPU等計算設備
任務:開放環境機器學習任務(魯棒性是關鍵)
形態:從「算法+數據」到「學件」(learn ware)