本文由 「AI前線」原創,原文連接: 山世光:從視覺計算近期進展「管窺」AI之ABCDE
做者|山世光
出處|AICon演講整理
編輯|Emily
你們好!很是高興有機會來到極客邦AICon大會跟你們作一次分享,剛纔泰穩提到你們都說人工智能,事實上在幾年前正好是相反的,我是作計算機視覺的,咱們一般都不稱本身是作人工智能的,如今是「被」人工智能了。算法
可是從廣義的角度來說,人工智能有很是普遍的話題,計算機視覺就是其中之一。所謂的計算機視覺,其實就是但願機器人可以像人同樣去看,經過視覺的方式去了解周邊有什麼樣的東西,以及正在發生什麼樣的事情。數據庫
因此今天,我從視覺智能的角度,來跟你們分享一下這一領域的最新進展及其背後技術,還將討論如今所流行的技術對於整我的工智能將來的發展是否足夠。安全
開門見山,咱們知道圖像和視頻,本質上是經過相機或者是攝像機對周圍世界進行採樣的結果。服務器
那麼計算機視覺,便是對攝像頭、攝像機捕捉到的視頻內容進行分析的技術,這一過程十分相似於人類的眼睛探索世界的過程,眼睛是經過光的感應對世界光進行採樣、再對內容進行分析。網絡
一幅數字圖像到計算機裏面變成有不少像素組成的數據矩陣,每個像素有紅綠藍三個分樣 。計算機視覺,就是從W×H大小的圖像裏面分析圖像的 內容,包括邊界、區域、事件、意義等等。機器學習
咱們人是如何看見的呢?其實咱們人類的「看」和「見」是兩個不一樣的過程。「看」就像攝像機拍照同樣,是眼睛經過視網膜的成像完成的:視網膜有大量的很是複雜、稠密的感光細胞,這些感光細胞能夠對物體表面反射紅綠藍三個份量測量它的強度,而「見」,則是眼睛採集到信號後,大腦對這些信號進行分析的過程,這部分工做是在咱們的視皮層上完成的,大概有兩個通路,一個是what通路,一個是where通路。分佈式
咱們進一步細看,人的大腦是由大約860億量級的神經細胞組成, 這些神經細胞在大腦中又分紅了不一樣的腦區,腦區又分紅了不一樣神經細胞的互聯。對圖像內容的理解是在視皮層處理完成的,而此過程則涉及到多個腦區,涉及到兩個通路 。函數
咱們來仔細看看其中每個神經細胞在作什麼。咱們在大學和高中的時候都學過一點點神經系統知識,一個典型的神經細胞,特別是感受神經細胞,它一般來講會有這樣一個結構:有一個像樹根同樣的樹突組成,這些樹突鏈接到細胞體,細胞體上面還有一個軸突,就像樹幹同樣,樹幹的頂端有各類各樣的神經末梢,一個神經細胞會與數千個其餘的神經細胞相連,而這些神經細胞與樹突的神經末梢相連,以與外界傳遞信息。而這個神經細胞在把這些信息聚集以後作決策,或者是支持某一個決定,或者是反對,或者是棄權。佈局
若是支持本身興趣的決策會發電,那麼若是與這個神經細胞軸突相連以接收到信號,會發生什麼呢?在上世紀六十年代,1959年先後兩位神經科學家作了實驗,在一隻小貓的初級視覺皮層,把它的視網膜感光細胞所接收到的光信號,傳遞到神經視皮層區域最初的細胞上,科學家找了其中一個神經細胞,而後把電機插到神經細胞的軸突上去測量神經細胞在什麼狀況下會放電,他們發現當給這隻小貓看一個特定的畫面時,該神經細胞會放電。那麼,這個畫面是什麼呢?是一個黑色的背景上面有一個斜向45度的亮條,當這隻小貓看這個圖案的時候該神經細胞會放電,若是你給它一個水平或者是豎直的亮條該細胞就不會放電,或者不在這個位置上也不會放電。學習
這個實驗具備很是大的開創性,你們可能都想象不到,在1980年的時候有人以這個工做爲基礎得到了諾貝爾獎。
其實它告訴咱們,咱們大腦裏面每個神經細胞其實都有一個特定的功能,好比像剛纔提到的神經細胞是專門檢測斜向45度邊緣的,然後來,他們慢慢發現,還有其餘的神經細胞能夠檢測其餘類型的信號。推而廣之,其實咱們能夠想象在咱們的大腦裏面甚至會存在神經細胞對幾個東西感興趣,進一步推廣咱們的大腦裏面也許存在祖母細胞,這個理論被稱之爲祖母細胞理論,固然這個理論最終被證實是不完備的,由於顯然不會只有一個細胞對你的祖母感興趣,可能有一羣對你的祖母感興趣,這是一個更加分佈式的系統。不然的話當這個神經細胞掛掉的時候,你就失去了對你祖母全部的記憶,這顯然不會是一個好的系統。
這樣的結構對咱們設計人工神經網絡帶來了怎樣的啓發呢?事實上,深度學習,實際上是上世紀八十年代中後期多層神經網絡的復興。
在上世紀八十年代,甚至更早的時候,計算機科學家就已經提出一些單神經元人工計算模型,一個典型的人工神經元計算模型,與剛纔提到的人腦中真正的神經元很是相似,也是一個神經細胞接收若干個輸入、對這些輸入進行加權處理、並最終作出反應的過程 。以這個神經細胞爲例,有N個不一樣的輸入給它,每個輸入會給它一個權重,經過加權求和的方式獲得一個結果,再判斷這個結果 是否大於某一個設定好的閾值,若是大於閾值就放電,不然就放電,固然咱們會作一個非線性函數的處理,來對加權求和的結果作一個非線性處理。
我剛纔提到有大量的神經細胞進行互聯,那麼互聯的時候它們在作什麼呢?首先來看一下人或者是生物的神經系統裏面,有一個層級感覺野的概念。
也就是說一個神經細胞會站在其餘大量神經細胞的基礎上作決策,這就很是像咱們社會從我的到家庭、到社區、鄉鎮、縣、市、省、中央這樣的層級的機構,每一級往上走的時候,金字塔越上層的節點視野越大,他們完成的任務也更復雜。事實上在神經科學裏面不一樣的顏色表明了這個神經細胞視野的大小,紅色是很是小的,到藍色的時候大概是七度的視野。
也就是說,大腦裏面的每個神經細胞可以看到畫面的大小是不一樣的,反應到圖像上去就是不一樣尺寸的像素區域 。在這樣一個通路上,越靠近眼睛的神經細胞,它的感覺野就越小,越往深層次走它的感覺野越大,它完成的功能從最開始邊緣的亮點到愈來愈複雜的圖形,甚至到最後咱們能夠找到一些神經細胞檢測車輪或者是眼睛等部件。
咱們對應到計算模型上去,剛纔提到單一的神經細胞完成加權求和、以及非線性激活,那麼若是把這些單一的神經細胞進行層級互聯,層層向上傳遞,最終其實就是咱們所謂的深度學習的結構。而深度學習中的「深度」,便是指鏈接的層次多。
經過這樣一種方式,咱們獲得一個多層神經網絡, 把數據矩陣輸入到網絡處理之後獲得咱們指望獲得的結果,這一過程,也就是咱們所謂的「黑盒子」深度學習。
而在計算機視覺領域, 最典型的深度學習方法就是卷積神經網絡。2012年,卷積神經網絡在計算機視覺領域的衆多問題上都取得了很是好的效果, 其設計很是符合剛纔我講的層級提取過程。上圖給出了卷積神經網絡的結構,其過程包括:卷積、採樣、非線性激活、卷積、下采樣、以及全鏈接。其中,卷積其實就是加權求和的過程,而在任意兩層每個神經細胞之間都有一個全鏈接的過程。
在圖像領域,所謂的卷積是什麼呢?其實就是剛纔所說的加權求和的過程。在進行圖像處理或者圖像分析時,設計一個濾波器對應權重矩陣,將該矩陣放在輸入圖像上,與對應位置的像素加權求和,這個過程咱們定義爲卷積。本質上,卷積就是濾波器,而其在最底層所完成的功能,就是以前提到的那隻小貓的神經細胞所作的事情--邊緣提取,咱們稱之爲局部特徵提取器。
具體的計算過程以下:輸入一張圖像,因爲具有紅綠藍三通道,所以使用三個5x5的濾波器,也即包含5x5×3,共75個值,提取特徵後獲得了一個激活圖。
結合前一張PPT講的內容,這一層結束獲得了28×28×6的激活圖。
而深度學習中所謂的「深度」,是經過分層來得到的。獲得28x28x6的激活圖後,在下一層將濾波器換成5x5x6,重複前序操做。經過不斷重複此過程,最終造成一個卷積神經網絡。
其實這裏卷積的過程,與過去在圖像處理和圖像理解領域使用的濾波器相似。那麼,它和過去的不一樣是什麼呢?
在過去的特徵提取時,採用的是人工設計的權重,咱們對輸入波形的變化進行調製,獲得了輸出的波形,這一過程當中使用的每個權重係數,都是人爲根據正餘旋波計算出來的。
而卷積神經網絡中,5×5×3中的每個權重再也不是人爲設計出來,而是經過神經網絡的訓練學習而來的,這是和過去很是大的不一樣。
雖然在底層,咱們學出來的權重係數和從前人工設計出的權重係數是相似的。然而,因爲權重造成的模式愈來愈複雜,已再也不是過去人工的方式能夠設計出來的。這也是過去人工設計方式極大的缺陷,即,很難設計出很是複雜的權重模式。
事實上,卷積神經網絡並非新鮮的事物,早已被應用於美國郵政編碼的手寫數字識別系統,並取得了很是好的結果。1998年,LeCun在手寫數字識別的基礎上,進一步作英文字母的識別,在這篇文章裏,卷積神經網絡這個概念被提出來。
咱們簡單回顧一下1980年的工做,它的計算很是相似於如今卷積的操做。
到1989年的工做作數字識別,這裏面已經採用瞭如今普遍採用的多個卷積和層級操做的方式。
直到1998年,卷積神經網絡概念被正式提出來,LeCun設計了一個包含兩個卷積層在內的總計五層的網絡,它在字符識別領域取得了很是好的效果。
接下來介紹2012年帶來日新月異效果的AlexNet,它須要學習的權重數很是多,到了6000萬個參數。然而咱們仍對這兩位學生充滿了敬意。
咱們爲何要很是敬佩這兩個學生?由於此前作機器學習的人一般不認爲這樣複雜的系統是好的,有6000萬個參數要學習的系統是極其複雜的,從機器學習的角度來說,是很是容易陷入到過學習狀態的,每每使得在計算機上好像效果很是好,可是一旦把這樣的模型用到其餘測試樣本上去,效果就會變得很是差。
因此,在當時他們勇於嘗試如此複雜的模型,並且要學習如此多的參數,意味着須要很是長的時間才能完成學習過程。實際上這兩位博士生若是是在今天作這樣一個學習,只須要把圖像的上半部分扔給一塊GPU,下半部分扔給另一塊GPU,而後再結合起來就能夠了,可是當時GPU的計算能力尚未那麼強大。
從1989年到2015年,神經網絡經歷了一個層數由少至多、層級由淺至深的過程,整體來講它的複雜度愈來愈高,事實上這也給機器學習領域帶來了不少新的挑戰。
由於過去機器學習領域對於複雜模型的理論是不足的,過去甚至認爲,在處理一個具體問題時,應儘量採用相對簡單的模型,然而事實證實,相對複雜的模型如今看來也有着很是好的效果。
從2012年以後出現了很是多新的模塊,包括對卷積層進行加強的方法,固然咱們華人作了更多的貢獻,在不一樣的計算機視覺任務上都取得了很是好的效果。
這樣一些新的神經網絡給計算機視覺帶來什麼樣新的變化呢?
好比說在圖像分類任務上,2011年是26%的錯誤率,2012年用八層的卷積神經網絡錯誤率降低到16%,到如今大概是2%左右的錯誤率。在五年左右的時間錯誤率降低到了1/10。
在物體檢測任務上,例如把照片中的人、車等兩百多種物體找出來,該任務在2013年沒有用深度學習的正確率是23%,2017年深度學習在一樣的任務上作到了73%的正確率,大概有三倍多正確率的提高。
在更多的問題上,例如人臉檢測、車輛行人檢測等等任務上,咱們都取得了很是大的進步。
咱們的技術能夠實現對行人車輛的檢測、跟蹤、屬性分析等,這也是所謂「天眼系統」所採用的技術。
咱們的無人機視覺技術,在500米高空上拍地面上的車輛,用檢測框的顏色來區分車輛的類型,咱們能夠準確的檢測出橋上大量的車輛。
咱們但願可以分割出圖片中哪一塊是路面、樹木、天空,在深度學習極大的促進下,正確率如今提高到86.9%。
這個任務咱們稱之爲看圖說話。
給機器一張照片,生成一段話來描述照片裏面的內容,這件事情在2015年以前幾乎沒有人作,幾乎看不到文章,可是在2015年以後出現了不少文章在作這件事情。
在某些數據集上,甚至機器生成的句子比人寫出來的還要好,會讓你無從判斷究竟是機器生成的、仍是人寫成的。它實現了計算機視覺圖像內容和天然語言之間的聯姻,使得咱們能夠了解或者認識圖像、聲音、語言等等不一樣的信息,賦予咱們在一樣語義空間裏面對他們進行理解的可能性。
相似的問題是視覺問答,給一張照片之後問一個問題,系統自動回答盤子裏面有什麼菜、或者在畫面裏面誰戴了眼鏡等等這樣一些問題,這也能夠和語言進行結合。
固然採用的方法是以語言爲基礎的,機器翻譯也受到了深度學習極大的影響,2016年、2017年對機器翻譯帶來的提高是很是大的,這個問題和語言領域的進展是分不開的。
還有一個很是有意思的應用,對圖像風格的轉換。
好比說咱們把一我的的頭髮變成黑色,而後再把它準確地變回來,經過使用生成式對抗網絡,在不少問題上都取得了很是好的效果。左邊是系統輸入的照片,右邊用該方法生成出來的,能夠看出,不管是加劉海、仍是改變頭髮的顏色,咱們均可以作到以假亂真。
甚至能夠實現對照片風格的轉化,好比說把莫奈的油畫變成看起來像照片,再好比把馬變成斑馬,甚至把一幅冬天拍的照片變成夏天拍的照片,這種轉換跟深度學習是直接相關的。
着重強調一下,還有一個受到極大影響或者是極大促進的領域,就是人臉識別。
上圖描述了人臉識別的快速流程,本質上就是要比較兩張照片裏面的人是否是同一我的。
過去咱們大概採用這樣幾個步驟:第一步先找到臉在哪裏,第二步找到面部的五官,咱們找到經過預處理或者對齊找到標準照,眼睛和鼻子、嘴儘量放在合適的位置,咱們把這樣一個照片變成一個向量,接下來計算上下兩幅照片對應向量Y1和Y2的類似度,若是類似度足夠大咱們認爲是同一我的,不然咱們認爲不是同一我的,這是人臉識別典型的流程。
在深度學習出來以前,人臉識別領域一直像是閉關鎖國的小國家。作人臉識別的人基本上不看其餘作計算機視覺的方法,由於那些方法在人臉識別上很差用,因此咱們都是本身作本身的方法、特徵和分類器。可是深度學習來了以後,在各個模塊上全面的採用相對更加通用的深度學習,特別是卷積神經網絡。
咱們回過頭來看一下人臉識別的技術。
在深度學習以前大概有三代技術:第一代技術就是人去設計一些特徵;第二代是認爲人設計的很差,咱們找一個線性變換,在一維變換中,你們想象就是y=Kx,而對於二維圖像,W就變成了矩陣,y=Wx,所謂的變換就是咱們在圖像空間裏面找一個W變換,使得在這個空間裏面不一樣人的照片可以分的開,同一我的的照片可以聚到一塊兒,這是咱們找W的目標設計。
咱們發現第二代的技術也不夠好,後來咱們又回過頭來,人仍是要設計特徵提取器,相似於卷積或者咱們稱之爲濾波器。而後,在人爲特徵提取的基礎上,再作第二步線性變換,試圖找到一個低維的空間,使得同一我的的照片可以聚在一塊兒,同時不一樣人的能夠分開。
深度學習出現以後,變成了直接學習從輸入空間到低緯特徵空間的變換。咱們再回顧一下這四類不一樣的方法,第一代其實是人做爲專家設計出來知識驅動的方法;第二代是數據驅動的方法,經過數據來學習一個W變換矩陣;第三個代是結合了前兩代,首先人設計一些特徵,在此基礎上又經過數據驅動來學習W變換;第四代是徹底數據驅動的方法。
深度學習在圖像分類任務上取得很是好的結果以後,FaceBook以及谷歌經過對大量數據的學習,都把卷積神經網絡應用到人臉識別的特徵提取上,你們能夠看到谷歌採用了800萬人2億張照片的數據庫進行訓練,在LFW數據集上取得了超過人類的識別精度。
若是咱們回過頭來看過去的技術,特別是第三代技術,咱們採用了人工設計的局部特徵,特別稱之爲濾波器,過去通常採用5×8總計40個不一樣的卷積核,獲得如左圖所示的濾波器,而後對圖像進行卷積,卷積結束以後咱們再作融合的方式,左下的圖像顯示的就是權重信息,是人工設計出來的。
而右圖展現了經過訓練的方式學習出來的權重信息,咱們能夠看到,深度學習在底層學習到的濾波器,與人工設計的濾波器是很是類似的,可是到上層的濾波器,則含有了愈來愈多的語義信息,使得咱們可以更好的提取有效特徵。
深度學習給咱們帶來的進步,並不只僅表如今特徵提取上,過去,咱們的特徵定位必定要有預處理的步驟,如今咱們發現人爲設計可能不夠好,因此通通交給機器本身去學習,學習如何在人臉檢測的基礎上直接進行特徵提取。
今年有一個工做,甚至不須要再定位五個(或者多個)關鍵特徵點,把人臉檢測框中的人臉直接輸入給神經網絡進行學習,這樣獲得的效果反而更好。
你們如今深入體會到人臉識別在平常生活當中的應用,若是你們有iPhoneX的話就知道它的人臉很是好用,它的錯誤率是萬分之一,由於它是最簡單的人臉識別的應用。
爲何說它是最簡單的人臉識別應用呢?由於它的傳感器和註冊方式是在人臉識別裏面最容易的場景,它的傳感器是紅綠藍,用來作照片的防僞和防攻擊等等都相對比較容易。
事實上人臉識別有不一樣的應用場景,大概有三大類十幾種小的不一樣的場景。
好比說在1:1的場景下,判斷張三是否是張三這樣一個問題上,也有不一樣的應用狀況。
好比說咱們坐高鐵的時候拿身份證驗證,大概能夠作到一萬我的冒充你,有一我的可以成功,不一樣的條件下正確率是不同的。甚至包括表面加了網紋,咱們將網紋去掉以後跟本人相比是否是同一我的,在這些方面都取得了很好的效果。再好比,拿一張照片看看這我的跟哪些人最像,如今的精度跟過去相比也有了很是大的提升,
固然在不一樣的場景下成熟度有很是大的差異,最難的場景實際上是1:N+1,我不知道他是否是一萬人裏面的一個,有多是,有可能不是,在不一樣的場景下成熟度很不同。可是若是在一個單位的門禁和考勤場景下,這個技術是很是成熟的。而若是是在公安的黑名單監控場景下,雖然從識別率的角度來說沒有那麼高,但至少它是可用的。
給你們看一個例子,這是中科視拓的人臉識別閘機,一個單位幾千人不用帶門卡便可以完成考勤和刷臉進門功能,2017年咱們的人臉識別簽到系統,已經成功應用到五個兩三千人的會議中。儘管如此,人臉識別還有很是多值得關注的話題。
總結一下,以計算機視覺領域爲例,過去咱們經過ABC,A就是算法,B是大數據,以及C--高強度的計算能力,使得咱們有了愈來愈好的精度。
也就是說,咱們在方法論上或者說是在研究範式的角度,在過去幾年中,經歷了從人工設計到有監督大數據驅動的轉變。
這個方法論在計算機視覺問題上,應該說推進了一大類非線性映射問題的解決。如圖所示,用一個數據矩陣x做爲輸入,咱們的目標是要學一個F函數,從而獲得咱們所指望的y,這個y能夠是一個類別,也能夠是分割的結果、或者是年齡、或者是某種以向量表達的值。
無論是哪類問題,只要問題能建模,並且有大量的x和y的數據對、或者是訓練集,這類問題如今都有但願解決的很是好。
其實深度學習給咱們帶來更多的是思想的變遷,包括解決非線性問題的方法,包括從過去的人工設計特徵到如今的數據驅動學習。
從過去不少時候是分而治之,把一個大的問題轉換成小的問題,再對小的問題逐個解決;到如今試圖減小人在此過程當中的干預,變成端到端的學習。還有一個很是重要的思想變遷,就是數據智能,咱們從過去重視算法到如今愈來愈重視數據,這對於計算機視覺領域的影響是很是巨大的。
咱們再看一個物體檢測的例子,咱們稱之爲狗屎檢測的例子,這是一個很是真實的案例,如今咱們正在作這個項目。
有一個客戶他們作了巡邏機器人在小區裏面巡邏,業主說它沒有用,後來終於找到一個痛點的需求就是檢測狗屎,以便通知保潔趕忙清理掉,若是沒有深度學習,咱們大概的作法是這樣的:
首先收集不少照片,固然也須要作標註;第二步咱們要花不少時間看它長什麼樣,它有什麼顏色,咱們絞盡腦汁的設計一些特徵,後面用數據驅動的方法作驗證。若是這個特徵不夠好,咱們再回到第二步反覆的作。
這是過去作人臉檢測和行爲檢測的方法論,大概花了十年左右的時間,還算作的不錯,這是一個很是重的任務。若是狗屎檢測須要一年,塑料瓶子檢測一年,咱們就須要很長的時間。
而深度學習時代,咱們大概是這樣作的:
第一步是花一些時間收集大量的照片,你們說你爲何能夠收集這麼多,由於咱們有數據衆包。咱們能夠很是快速收集大量的照片,咱們花很是短的時間挑選深度學習的模型,接下來就交給機器作參數模型的優化。
幸運的話,若是是很是成熟的高手,一旦拿到數據以後,最快一兩個星期就有很是不錯的結果出來,因此這個時間就縮短到了兩個月。
後深度學習時代上述的作法是否是足夠呢?咱們認爲實際上是不夠的。咱們會看到有大量各類不一樣的物體作檢測,垃圾的種類又很是多。若是咱們每一種都要這樣作的話,對作AI算法的人來講是各類各樣的悲劇。
也許咱們花幾分鐘的時間簡單到互聯網上搜集照片出來,咱們但願這樣一個過程在幾個星期或者幾個小時裏面完成,固然這個是否是夠呢?
咱們認爲還不夠,咱們看看人,人踩一次狗屎以後,大概踩第二的次可能性很是小了,咱們在幾秒鐘的時間內完成這樣一個過程。
因此對人來講就是ABCD,A和C合起來是大腦,B稱之爲書裏面不少知識,咱們也須要數據,固然這個數據確定不是大數據。若是咱們真的看人的大腦,咱們會發現人的大腦其實也是須要大數據訓練的,只不過大數據訓練早已由咱們的祖先幫助你們完成了,咱們出生以後的大腦實際上是進化後的大腦,咱們個體在成長髮育過程中,則是利用了後天積累的小數據和知識,對先天進化腦進行調整。
因此這個過程,從方法論的角度來說,從監督大數據驅動方法論出發,咱們最終造成的,仍是把數據和知識聯合起來驅動的方法論。
那麼,計算機視覺是一個已經解決了的問題嗎?
咱們認爲若是隻是目前靠深度學習來解決,這樣一種方式是遠遠不夠的,好比說計算機視覺不少的問題,檢測、分類、分割等等,這些問題都是依賴於大數據的。你們回憶一下剛纔講的目標檢測,咱們檢測精度也沒有到90%,事實上咱們有數萬類的物體要檢測,這裏面存在一個很是嚴重的問題。若是咱們靠數據來解決,中國人多,咱們十我的一組,作一個物體的檢測也能夠解決這個問題,但其實這是很是不優雅,也是不可能的。
咱們看物體的時候,數萬類的物體,有一些物體咱們能夠收集到很是大量的數據,可是有一些物體很是難收集大量的數據,甚至是沒有數據的。咱們但願可以在小樣本的狀況下或者沒有樣本的狀況下也可以作計算機視覺。我最近一直在倡導咱們要作這樣一棵很是漂亮的樹,包括咱們在零數據、弱數據、小數據、髒數據,固然咱們也須要借鑑或者利用一些知識,使得咱們可以解決這些小樣本學習的問題,以安全帽檢測爲例,最終咱們但願若是能有這樣的作法,把檢測任務給它,剩下的交給AI生產平臺,它先檢索網絡上的數據,搜索關於安全帽是怎麼定義的,而後咱們交給算法學習,這也許是一個更加智能、更加自動化的過程。
固然從學術的角度來說,其實有很是多的小樣本學習問題亟待解決,而且出現了很多的方法,大概能夠分爲以下幾類:數據增廣、零樣本學習、以及小樣本學習。
咱們從數據的角度能夠生成數據,好比經過物理建模或者是圖形學的方法來重構。
咱們也能夠用相似GAN的方法,經過觸類旁通的方式來作數據增廣。
咱們能夠在跟蹤的過程當中,實現大量的樣本和有標註樣本的收集,這是一個自動收集樣本的過程。
如今咱們作脣讀的時候經過大量的語音識別生成文本,而後獲得有標註的樣本,還能夠經過其餘的模態自動標註。
此外,還有零樣本學習的問題。
零樣本學習的思路以下:好比說咱們系統裏面可能有老虎、有馬,可是咱們沒有斑馬。如今我告訴你能不能檢測斑馬,其實咱們也能夠採用零樣本學習的方法,經過語義空間完成圖像空間樣本和類別空間之間的鏈接。
斑馬在語義空間裏面,由於它長得像馬、身上又有條紋。雖然系統以前歷來沒有見到過斑馬,可是咱們能夠經過零樣本學習來實現對斑馬的識別,固然所謂的語義空間怎麼獲得呢?也多是人去經過屬性的定義獲得的。
咱們也能夠假定,語義空間和圖像空間在結構上有類似性,因此能夠經過對語義空間的學習來實現圖像空間與語義空間的轉換。
固然對小樣本學習能夠有更多的工做能夠作。所謂的小樣本,不管是有語義表示或者沒有語義表示的狀況下,只要每個類別有小量的數據,咱們就能夠經過對輔助數據集的學習,把獲取到的知識遷移到以前歷來沒有見過的類別上去,實現只有少許樣本的檢測或者是識別。
再好比,這邊的物體有大量的樣本,那邊只有小量的樣本,咱們如何實現對那邊只有小量樣本的物體進行檢測和識別呢?這能夠經過遷移學習的方式來實現。
咱們經過學習表達的空間,學習如何去提取一個特徵,這個特徵能夠區分各類不一樣的物體,既包括這邊也包括那邊的物體,從而解決這樣小樣本學習的問題。
咱們能夠經過充分利用大量無監督的數據,來解決小樣本學習問題。
最近兩年有一個很是火的概念叫元學習,就是如何學習的方法,它能夠用來解決小樣本的問題。
雖然咱們每一類物體有大量的樣本,可是咱們用抽樣出來小量的樣本,尋找到如何學好的方法,再把這一學習的方法應用到小樣本學習上去。
固然在理論方法層面,仍須要遷移學習和自主學習等技術帶來機器學習的本質的進步。
實際上從其餘的角度來說也是很是重要的,咱們看到傳感器的進步在不少時候可以帶來巨大的影響,好比說攝像機的四高(高清、高速、高動態、高光譜),包括弱信號的檢測、主動識別等等都對計算機視覺任務產生很是大的影響。
從計算的角度來說,如何可以把一些複雜的任務放到端上去,也是很是值得咱們關注的,咱們相信在將來三到五年的時間裏面,可能會有愈來愈多的事情是在端上的,甚至三到五年以後咱們大量的訓練任務都會在端上完成,而不是在服務器端完成。
簡單總結一下,從視覺智能的角度來說,咱們有一句話叫作,「會看的AI更智能」。
學術界和工業界亟需從知識和數據聯合驅動的方法論出發,解決小樣本的問題,解決Scalability的問題。咱們知道,目前在各類問題上,幾乎全部工業界的算法都是基於大數據完成的,但其實本質上,咱們也要着眼將來、佈局新的可能性。
在這個領域裏面有一句話叫作「數據爲王」,將來不會永遠是這樣的,個人分享到此結束,謝謝你們。
更多幹貨內容,可關注AI前線,ID:ai-front,後臺回覆「AI」、「TF」、「大數據」可得到《AI前線》系列PDF迷你書和技能圖譜。