摘要
從少數樣本學習並泛化至大相徑庭的狀況是人類視覺智能所擁有的能力,這種能力還沒有被先進的機器學習模型所學習到。經過系統神經科學的啓示,咱們引入了視覺的機率生成模型,其中基於消息傳送(message-passing)的推斷以統一的方式處理識別、分割和推理(Reasoning)。該模型表現出優秀的泛化和遮擋推理(occlusion-reasoning)能力,並在困難的場景文字識別基準任務上優於深度神經網絡,且更具備 300 倍的數據效率(data efficient)優點。此外,該模型基本上打破了現代基於文本的驗證碼生成方案,即在沒有具體驗證碼的啓發式方法下分割目標。咱們的模型在通向通用人工智能的路上多是很是重要的,由於它強調了數據效率和語意合成性等特性。算法
從幾個例子中學習和歸納的能力是人類智力的標誌(1)。
CAPTCHAs,網站使用的阻止自動交互的圖像,
是人類易於使用的問題的例子,但對於計算機來講卻很困難.
CAPTCHAs對於算法來講很難,由於它們將混亂和擁擠的字符加在一塊兒,
字符分類器建立一個雞和雞蛋問題
分類器適用於已分段出來但分段的字符我的角色須要理解角色,
每一個角色能夠以組合方式呈現(2-5)。
最近一種深度學習的方法來解析一種特定的人機識別模式,須要數百萬個標註的例子(6),
早期的方法主要依靠手工製做的風格特定的啓發式來分割字符(3,7);
而人類能夠在沒有明確訓練的狀況下解決新的風格(圖1A)。
字母形式能夠呈現並仍然被人們理解的各類各樣的方式在圖1中示出。網絡
Douglas Hofstadter設想「程序處理具備人類靈活性,它必須擁有全面的人工智能「(8)。要構建這樣的模型遠遠超出訓練數據,
許多研究人員推測,這能夠經過結合視覺皮層(9-12)的感應誤差來實現,利用神經科學和認知科學研究產生的豐富數據。
在哺乳動物的大腦中,視覺皮層中的反饋鏈接起做用
即便部分透明的物體佔據相同的空間位置(13-16),圖像分割中的角色和基於對象的自頂向下的注意力即便隔離對象的輪廓。
視覺皮層的橫向鏈接涉及強化輪廓連續性(17,18)。使用相互做用的獨立機制(19-21)來表示輪廓和曲面,
使得可以識別和想象出異常外觀的物體 - 例如由冰製成的椅子。皮質激活的時間和形態給出了關於輪廓表面表示和推理算法的線索(22,23)。
基於皮質功能的這些看法還沒有歸入領先的機器學習模型框架
咱們引入了一個稱爲遞歸皮質網絡(RCN)的層次模型,將這些神經科學看法融入到一個結構化機率生成模型框架。機器學習
除了開發RCN及其學習和推理算法以外,咱們將該模型應用於須要從一個或幾個訓練示例中進行泛化的各類視覺認知任務:解析CAPTCHAs,一次和幾回識別以及生成手寫數字, 閉塞推理和場景文本識別。 而後,咱們將其性能與最早進的模型進行比較。性能
Recursive cortical network學習
RCN創建在現有的組合模型(24,28-32)上。
雖然基於語法的模型(24)具備基於來自語言學的衆所周知的想法的優勢,
可是它們將解釋限制爲單個樹,或者在使用歸因關係時計算不可行(32)。
關於AND-OR模板和樹結構化組合模型(34)的開創性工做具備簡化推理的優勢,
但因爲缺少橫向約束,缺少選擇性(35)。
來自另外一個重要類別(25,29)的模型使用橫向約束,而不是經過池化結構逐漸構建不變性(36),
它們使用參數變換來完成每一個級別的完整的縮放,旋轉和平移不變性。
須要自定義推理算法,但這些算法在傳播局部相互做用以外的橫向約束效應方面無效。
(37)中的輪廓和曲面的表示不會對它們的相互做用進行建模,而是選擇將其模型化爲獨立的機制.
RCN和組合機器(CM)(32)共享將組合模型想法放置在圖形模型公式中的動機。
然而,CM的「組合分佈」的表明性選擇 - 使用單層隨機變量來摺疊特徵檢測,聚集和橫向協調 - 致使擴展的狀態空間,從而將模型限制爲貪心推理和解析過程。
通常來講,因爲各類各樣的表現形式的選擇,組合模型的推論依賴於不一樣模型實例的定製方法,包括求解隨機偏微分方程(30),基於抽樣的算法(24)和修剪動態規劃( 29)。網站
RCN整合並構建了組合模型的各類想法 - 層次結構,逐漸創建不變性,側向鏈接的選擇性,輪廓分解和基於解釋的聯合解釋 - 在結構化機率圖形模型中,
使信仰傳播(38)能夠用做 主要近似推理機[(33)第6節]。
實驗性神經科學數據提供了表明性選擇的重要指導[(33)]第7節,而後使用實驗研究證明有益。 咱們如今討論RCN及其推理和學習算法的表示。
數學細節在(33)的第2至5節中討論。編碼
Representation
在RCN中,對象被建模爲輪廓和曲面的組合(圖2A)。輪廓出如今表面的邊界處,不管是在對象的輪廓和組成對象的曲面之間的邊界。表面使用條件隨機場(CRF)建模,其捕獲表面性質變化的平滑度。輪廓使用特徵的組成層次來建模(28,39)。輪廓(形狀)和表面(外觀)的因子表示使得模型可以以顯着不一樣的外觀識別物體形狀,而沒必要對每種可能的形狀和外觀組合進行詳盡的訓練。咱們如今詳細描述形狀和外觀表示。圖2B顯示了兩個子網(黑色和藍色)
一個級別的RCN輪廓層次結構。圖中填充和空的圓形節點分別對應於特徵和池的二進制隨機變量。每一個特徵節點編碼其子池的AND關係,每一個池變量編碼其子特徵的OR,相似於AND-OR圖(34)。表示爲矩形「因子節點」的橫向約束協調鏈接到的池之間的選擇。能夠對應於兩個對象或對象部分的兩個子網共享較低級別的特徵。人工智能
圖2C示出了表示平方的輪廓的三級網絡。最低,中等和最高水平的特徵分別表示線段,拐角和整個正方形。每一個池變量池不一樣
「中心」特徵的變形,小平移,縮放變化等,從而引入相應的不變性。沒有池之間的橫向鏈接(圖2C中的灰色方塊),從表示
如圖3A所示,角部能夠產生不對準的線段。池之間的橫向鏈接經過確保在一個池中的特徵的選擇影響其鏈接的池中的特徵的選擇來提供選擇性(35),建立輪廓變化更加平滑的樣本。橫向約束的靈活性是經過擾動因子來控制的,這是一個每級指定的超參數。經過多層特徵集合,橫向鏈接和組合,頂層的特徵節點能夠表示能夠經過必定程度的平移,縮放和變形不變性來識別的對象。對象
生成模型先驗知識
數據足夠多,神經網絡一樣能達到效果。
神經網絡
隱馬爾科夫模型HMM
http://freemind.pluskid.org/machine-learning/hmm-definition/
如何輕鬆愉快地理解條件隨機場http://www.jianshu.com/p/55755fc649b1