視覺感知-從人類視覺到計算機視覺

點擊上方「小白學視覺」，選擇加"星標"或「置頂」算法

重磅乾貨，第一時間送達數據庫

人的視覺皮層由1.4億個神經元組成，是大腦中最神祕的部分之一，負責處理和解釋視覺數據以提供感知力並創建記憶。人們能夠從少許信息中獲取相關環境的大量信息。例如給定一幅圖像，咱們能夠利用上下文和先驗知識得知整個故事。微信

可是，使計算機感知視覺世界有多困難？截至2019年，咱們才取得了必定進展，但依舊還有很長的路要走。計算機視覺是計算機科學的一個相對較新的領域，大約有60年的歷史。app

人類視野的演變機器學習

5.5億年前生命主要存在於水中，可是5.43億年前地球上的物種急劇增長，牛津大學的動物學家安德魯·帕克（Andrew Parker）在他的著做《In The Blink Of An Eye》中稱其爲寒武紀爆發。這是因爲視覺的忽然進化，引起了動物進化或死亡。也就是視覺激發進化大爆炸的方式。學習

大腦如何解決視覺問題？ui

直到1959年，咱們對生物視覺的瞭解仍是不多。1959年，哈佛醫學院的兩名神經生物學家David Hubel和Torsten Wiesel進行了一項驚人的實驗，揭示了人類視覺系統的幾個祕密，並得到了2項諾貝爾獎。spa

https://www.youtube.com/watchv=NV1uBSSC8jE&feature=youtu.be.net

他們記錄了貓腦中單個神經元的電活動。他們使用幻燈機向貓展現了特定的圖案，並注意到特定的圖案刺激了大腦特定部位的活動。實驗代表，視覺皮層細胞對邊緣的方向敏感，但對邊緣的位置不敏感。他們得出結論，視覺皮層中有3種類型的細胞：簡單，複雜和超複雜。視覺處理從簡單的單元格開始，這意味着它從學習簡單的事物（即邊和角）開始。這爲現代計算機視覺奠基了基礎。設計

從生物視覺到計算機視覺

上世紀70年代，麻省理工學院的神經科學家David Marr借鑑了Hubel和Wiesel關於大腦視覺處理系統的實驗的想法，開始制定計算機視覺來模仿人類的視覺能力。他說，爲了理解視覺信息，在視覺皮層中對其進行處理時須要分幾步進行處理。他提出了這樣的假設：存在少許造成原始視覺對象的幾何組成形狀。他把他的大部分發現都放在了《視覺》一書中。

多年來，受視覺皮層中分層處理的啓發，通用對象識別的分層方法變得愈來愈流行。人們開始思考人類視覺已經解決的問題，例如人臉識別，物體識別和分割。

1966年，麻省理工學院夏季視覺項目（MIT Summer Vision Project）在麻省理工學院開始了首次正式的計算機視覺工做，旨在在1966年夏季解決計算機視覺問題。

古典計算機視覺

在現代深度學習啓發計算機視覺以前，在70年代，人們開始使用模板匹配方法和滑動窗口方法來解決對象識別和檢測問題，以進行對象檢測和分類。

在給定對象模板的狀況下，咱們能夠在數百個可能的窗口中查找模板對象。可是在現實世界中，因爲視點，比例尺和照明變化，遮擋而沒法使用。一樣，咱們不可能擁有全部可能的模板來爲類內或類間變異建模。

所以人們開始使用基於功能的方法。特徵點是圖像中特殊的點，其對於上述變化保持不變。

在另外一個場景中匹配對象。-大衛·勞（David Lowe），1999年

在1999年，David Lowe 在ICCV會議上發表了SIFT -Scale不變特徵變換。SIFT的想法是-將圖像內容轉換爲對平移，旋轉，縮放和其餘成像參數不變的局部特徵座標。如今將其描述爲經典計算機視覺的AlexNet時刻。因爲使用SIFT，人們無需考慮比例尺，照明變化和遮擋物，所以爲對象識別研究提供了動力。

機器學習啓發了計算機視覺

到2000年，統計機器學習已在人們眼中飛速發展。保羅·維奧拉（Paul Viola）和邁克爾·瓊斯（Michael Jones）在2001年使用機器學習開發了最好的人臉檢測算法之一，目前它仍然是最快的人臉檢測方法之一。

Apple Face ID

2006年，Fujifilm製造了第一臺內置人臉檢測的相機。支持向量機在90年代後期的成功使計算機視覺更容易進行對象分類任務。仍然缺少進行研究的數據集。爲了建立一個標準的，面向研究的數據集，牛津大學視覺幾何小組的安德魯·齊瑟曼和馬克·埃弗林漢姆共同建立了PASCAL視覺對象類數據集爲視覺和機器學習社區提供了圖像和註釋的標準數據集，以及標準的評估程序。它致使了分類算法和檢測算法的發展，但因爲現代機器學習算法的模型容量較高，而且PASCAL數據集的大小相對較小，所以模型很容易過擬合，而且在看不見的圖像上沒法給出良好的結果。

深度學習的寒武紀大爆炸

研究人員一直在努力設計愈來愈複雜的算法，以對多媒體數據進行索引，檢索，組織和註釋。可是好的研究須要好的資源。要大規模解決這些問題，若是存在大規模圖像數據庫，將對研究人員有極大幫助。這是斯坦福視覺實驗室的李飛飛教授的ImageNet，超過15萬張圖片的數據集。李飛飛的博士之一 Pietro Perona是Jitendra Malik的學生。2011年，Jitendra致電Geoffrey Hinton並建議他使用ImageNet，在第二年的2012年NIPS大會欣頓（Hinton）與亞歷克斯·克里熱夫斯基（Alex Krizhevsky）共同發佈了AlexNet，在2018年GTC峯會上，這被NVIDIA首席執行官黃仁勳稱爲寒武紀深度學習爆炸

幻燈片，黃仁勳（Jensen Huang），NVIDIA GTC，2018年

結果是很是驚人，甚至讓李飛飛教授也感到驚訝，並認爲數據集有問題。從那時起，現代計算機視覺便一直受到深度學習的影響。

爲何計算機視覺很難？

視覺理解遠遠超出了對象識別範圍。瞥一眼圖像，咱們能夠絕不費力地想象超出像素範圍的世界：例如，咱們能夠推斷人們的行爲，目標和精神狀態。儘管這項任務對人類來講很容易，但對於當今的視覺系統而言倒是極爲困難的，須要對世界的高階認知和常識推理。

該項目始於1966年的MIT夏季視覺項目，旨在於當年夏季解決計算機問題，即便通過這些巨大的努力，它也仍沒法解決問題，它僅在少數特定的受限環境中有效。

交流羣

歡迎加入公衆號讀者羣一塊兒和同行交流，目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫學影像、GAN、算法競賽等微信羣（之後會逐漸細分），請掃描下面微信號加羣，備註：」暱稱+學校/公司+研究方向「，例如：」張三 + 上海交大 + 視覺SLAM「。請按照格式備註，不然不予經過。添加成功後會根據研究方向邀請進入相關微信羣。請勿在羣內發送廣告，不然會請出羣，謝謝理解~

本文分享自微信公衆號 - 小白學視覺（NoobCV）。
若有侵權，請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」，歡迎正在閱讀的你也加入，一塊兒分享。