弱監督學習總結(1)

弱監督學習總結(1)

前言:

目前深度學習可謂是資本寵兒,各路大牛公司均加入深度學習軍備競賽,百度最先成立人工智能研究院,接着騰訊的AI研究所和阿里的達摩院,均是投入血本進行深度研發,不只是人才的競爭,還有數據/計算能力和應用項目落地的競爭。大公司在競爭,小公司也不甘示弱,天天都能看到新的AI公司在成立,招兵買馬大幹一場,這也是一場殘酷的戰爭。算法

在學習過Udacity和吳恩達的deeplearning課程以後,我對深度學習又有了新的一些見解。確實,深度學習在語音/圖像和天然語言方面相比傳統算法有長足的進步,不少方面的識別率超過人類水平,因而各路媒體大肆渲染深度學習算法的神奇之處,說着說着就將深度學習算法和人工智能混爲一談,認爲再過不久,人類很快就被機器所代替。markdown

其實,這些宣傳是很是不謹慎的,計算機確實在某些領域能有很高的準確率,但相比人類來講,它們在邏輯推理,組合,分析方面的能力是遠遠不夠智能的,更不用談它們能創新創造。在我看來,人類巨大的腦容量所鏈接的海量神經元絕對是天然賜予人類最寶貴的財富,它的複雜程度比世界上運算量最大的計算機還高出好幾個指數級,大腦的學習/思考/分析/創造能力是遠非機器所能比擬的,我以爲只有更深刻的瞭解物質組成的本質,好比量子理論和量子計算的發展,才能讓計算機比擬人類能力,得到更強大的能力。而目前的深度神經網絡只是在結構上借鑑了大腦的神經元結構,但真正具體的神經元工做原理以及如何去實現複雜的分析推理工做連人類本身都不得而知,更談不上讓機器人代替人類作出複雜的決策,讓機器人去學習難以用邏輯推理去定義的情感。網絡

之因此說這些想法,是由於太多人談到深度學習就是人工智能,其實這個發展過程是十分漫長的。研究人工智能,這不只僅是讓人類生活的更輕鬆,並且還能認識到人類的本質,至少是咱們對於自身理性邏輯思惟方面的深入認識,但千萬不要太迷信深度學習,也不要將深度學習和人工智能混爲一談。函數

什麼是弱監督學習?

通常經常談到深度學習,就是根據數據特色,選擇合適模型(CNN.RNN)等去訓練模型,讓模型本身尋找數據特徵,構造合適損失函數並優化到最小值,獲得的模型參數就是咱們須要的結果,這個過程通常稱爲(強)監督學習。而這個過程當中有一個問題,在平常生活中會有大量的數據,但給數據都加上標籤(label)成本過高,咱們得想辦法既能下降成本,又能獲得更準確的模型,這個時候弱監督學習就閃亮登場了。post

弱監督學習是相對於強監督學習和無監督學習來講的,當咱們獲得的數據集之中只有一部分數據有標籤,而另外一部分數據沒有標籤,但咱們仍是想訓練一個不錯的模型(窮且傲嬌),咱們稱其爲弱監督學習,利用這很是規的數據集來訓練模型,到底該咋辦呢?學習

分類

弱監督學習通常能夠根據數據類型分爲三類:優化

  • 不完整監督學習(incomplete supervised learning):數據中只有一部分由標記
  • 不確切監督學習(inexact supervised learning):數據中標記數據粗粒度太大
  • 不許確監督學習(inaccurate supervised learning):數據中標籤錯誤

這裏寫圖片描述

不完整監督學習

數據既然不完整,那咱們只能想辦法根據這有限的數據來訓練模型了,前人學霸們都作了哪些研究呢?咱們來瞧一瞧。人工智能

主動學習(active learning)

  • 思路:提取數據樣本中最有價值的樣本進行標記,性價比最高!(我沒錢就找幾個有用的數據打標籤,能提升一點是一點) 
    說白了,就是在成本有限的狀況下找出模型預測最容易出錯的數據打上標籤,將打上標籤後的數據繼續放入模型訓練,直到獲得滿意的模型。

主動學習示意圖

  • 核心問題:如何尋找最有價值標籤?經過何種方式標記?atom

  • 經常使用方法:最笨——從頭開始;第二笨——按順序給出;第三種——選出易錯點,利用熵值或者多樣性評判;(說白了,就像小學生複習考試,那些題總是錯才值得多花時間練習,若是從頭開始複習,可能沒多久就去王者榮耀或者吃雞了,哪還有那閒工夫慢慢磨機)spa

  • 理論:informativeness (最大程度下降統計分佈偏差)和representiveness(最大化展示輸入數據的模式),前者例如高斯混合模型,但過於依賴模型輸入的機率分佈方式;後者好比聚類,過於依賴數據的輸入模式)

主動學習的思想,是在人類必定的干預之下提升模型的效果,但設計的特徵方式均須要人類大量的先驗知識,也就是想設計出不錯的模型,你可能得是個「磚家」!

上圖爲主動學習和被動學習分類結果對比,在c中對未標記數據分類準確度遠高於b

此次先記錄這麼多,其實主動學習屬於傳統的建模學習方法,相比於深度學習可能沒有那麼神奇,但將主動學習的思想加入深度學習之中,可能就能有效的解決實際問題,好比CVPR2017會議中這篇論文:https://www.jianshu.com/p/42801f031cfa,很簡單的方法但對於實際問題十分有效,更重要的是做者對於問題清晰和準確的定義和分析,不僅僅是創建一個模型和複雜的損失函數,而是對模型訓練中出現的多種情形進行了總結分析,給出了不錯的指導意見,十分有效!

下篇接着講弱監督學習中的半監督學習,這部分涉及方法很是普遍,也很是有趣。

相關文章
相關標籤/搜索