隨想:目標識別中,自適應樣本均衡設計,自適應模型結構(參數可變自適應,模型結構自適應,數據類別or分佈自適應)

     在如今的機器學習中,不少人都在研究自適應的參數,不須要人工調參,可是僅僅是自動調參就不能根本上解決算法

ai識別準確度達不到實際生產的要求和落地困難的問題嗎?結論可想而知。若是不改變參數,那就得從算法的結構入手,網絡

好比,現有的谷歌的MnasNet系列,這種是在人工的指導下進行的,可是,僅僅是這樣就夠了嗎?我我的以爲還不夠框架

 

   一、在作機器學習的時候,咱們模型的指標提不上去的時候,一般緣由是由於邊緣樣本,也就是咱們所說的hard-example,機器學習

若是和解決邊緣樣本呢?目前是人工發現這些樣本並增長hard-example數量達到改善模型指標的方式。還有一種方式,就是函數

將邊緣樣本細分,將邊緣樣本單獨做爲一類別,從而成爲非邊緣樣本。(樣本邊緣性是相對的,當你將某一個樣本做爲主要類別,學習

則與該樣本模式相差較大可是劃分爲同一類別的就是邊緣樣本。)人工智能

   

     二、目前算法是很笨的,他不具有潛意識,只是學習你喂的數據,所以從表現上改變數據的結構,分類,細化問題,可能得到更好的模型體現。設計

   

     三、可是,問題來了,上面只是從樣本上面去作改變,如何從算法方面做出改變呢? 基礎

          梯度提高樹(boost)的優點就是他會將識別錯誤的樣本的基礎上,從新訓練得到新的決策,(第二顆樹訓練的目標是基於第一棵樹的識別結構的),自適應

       而,目前損失函數,就是計算訓練樣本的和label的之間的loss,並不關注,每一個樣本loss大小變換與不一樣的問題。實際上,對於邊緣樣本,髒樣本,

       在訓練迭代到後期,這些樣本的地loss是比較大的,就是他們存在,算法不能收斂徹底(好比,後期好的樣本的loss已經很低了,每來一次干擾樣本,

       致使訓練,訓偏了,這種誤差將須要好幾個正常樣本的來「修復」)。這時候就想出了,是否除了參數可變自適應,模型結構自適應,數據類別or分佈自適應呢?

 

數據分佈自適應:

      數據分佈自適應,我以爲相似k-means,自適應尋找模型內部的分佈,並挖掘這個樣本數據集合到底要怎麼分類,分幾個類別,固然,要結和業務角度出發,

  不能破壞咱們原有的需求。好比自適應的感覺野,在識別卡車和行人問題上,咱們能不能根據卡車大小統計和人的大小統計從而概括出識別人須要幾層網絡,識別卡車須要幾層網絡,

而後,在一個網絡中,好比,卡車須要M層,人須要N層,則算法自動選取ob=max(M,N)層,當達到M層時自動設計一個針對卡車的輸出,N層時,自動設計針對人的輸出等等。

也許目前人工智能是由於人工標註學習的結果,也許目前算法還不夠智能,也是侷限於人工的標註(人工智能成也人工,敗也人工?),而不能超越人工的框框架架下面。

相關文章
相關標籤/搜索