李飛飛計算機視覺學習總結一（附經典論文連接）

時間 2019-11-30

標籤計算機視覺學習總結經典論文連接欄目快樂工作简体版

原文原文鏈接

內容

第一節課——簡介

什麼是計算機視覺——就是針對視覺數據的研究
1.1. 百度知道算法

計算機視覺是使用計算機及相關設備對生物視覺的一種模擬。它的主要任務就是經過對採集的圖片或視頻進行處理以得到相應場景的三維信息。計算機視覺既是工程領域，也是科學領域中的一個富有挑戰性重要研究領域。計算機視覺是一門綜合性的學科，它已經吸引了來自各個學科的研究者參加到對它的研究之中。其中包括計算機科學和工程、信號處理、物理學、應用數學和統計學，神經生理學和認知科學等。網絡
計算機視覺課程的重要性
海量視覺數據（YouTube爲例）
講師介紹以及相關課程（cs131等）dom

第二節課——視覺發展史

動物視覺發展史
機器視覺發展史——目標分割概念函數

Block world 視覺世界簡化爲簡單形狀學習
計算機視覺發展史——論文以及Adaboost實時人臉檢測優化

"SIFT"& Object Recognition, David Lowe, 1999
Spatial Pyramid Matching, Lazebnik, Schmid& Ponce,2006
Histogram of Gradients(hog), Dalal& Triggs,2005
Deformable Part Model Felzenswalb McAllester, Ramanan 2009
https://pan.baidu.com/s/1B06-0quirEwrxhdrwbgSbg（百度雲連接）ui
兩個著名的數據集合人工智能

ImageNet / Pascal Voc數據集合(解決過擬合問題).net
學習指南設計

a. 掌握貓視覺實驗的結論:（電生理學研究：電極控制）視覺處理是始於視覺世界的簡單結構

b. 掌握目標分割概念（備註1）

c. 瞭解 Adaboost實時人臉檢測算法如何實現

d. 瞭解 mageNet、 Pascal Voc數據集合(備註3）包含的圖片種類及類別

第三節課——卷積神經網絡的發展

圖像任務簡介

圖像分類、圖像檢測、 image captioning
Imagenet大賽中使用的模型

傳統提取特徵-->SVM(備註4)
神經網絡(2012年Alexnet是一個大的突破)
趨勢是愈來愈深
最先使用CNN的 Le是 Cun用來作手寫數字識別
展望計算機視覺發展的方向(存在的問題)
學習要點指南:
突破性事件是2012年的 Alexnet
神經網絡迅速發展的條件（GPU和數據）

做業

圖像的數據主要來源有哪些（列舉幾個便可）

ImageNet , PASCAL VOC , Labelme ， COCO等
https://blog.csdn.net/u012966194/article/details/79676516 （鏈接）
sift feature 是什麼，能夠用來幹什麼？金字塔匹配思想是什麼，能夠用來幹什麼？hog特徵是什麼，能夠用來幹什麼？

2.1. SIFT:即尺度不變特徵變換（Scale-invariant feature transform，SIFT），是用於圖像處理領域的一種描述。這種描述具備尺度不變性，可在圖像中檢測出關鍵點，是一種局部特徵描述子。 SIFT用來檢測圖像的局部特徵點
https://baike.baidu.com/item/SIFT/1396275?fr=aladdin（SIFT百科）
2.2. 圖像金字塔是以一種多分辨率來解釋圖像結構，經過對原始圖像進行多尺度像素採樣的方式，生成N個不一樣分辨率的圖像，把具備最高級別分辨率的圖像放在底部，一金字塔形狀排列，往上是一系列像素逐漸下降的圖像，一直到金字塔頂部只含有一個像素點的圖像，這就構成了傳統意義的圖像金字塔，圖像金字塔更多的是一種不一樣尺度空間的思想，還能夠用在光流，slam姿態估計和加速模型匹配等等
2.3. Histogram of Oriented Gridients，縮寫爲HOG，是目前計算機視覺、模式識別領域很經常使用的一種描述圖像局部紋理的特徵。這個特徵名字起的也很直白，就是說先計算圖片某一區域中不一樣方向上梯度的值，而後進行累積，獲得直方圖，這個直方圖呢，就能夠表明這塊區域了，也就是做爲特徵，能夠輸入到分類器裏面了。 HOG能夠用來作檢測，主要用於行人檢測，車輛檢測，跟蹤等狀況
神經網絡早就存再爲何神經網絡最近才(提示：從數據和硬件方面考慮)

3.1. 從硬件角度來講：計算機硬件數量級的提高
3.2. 從數據角度來講：人工智能的數據以及他帶來的方法，技術有很大的改變
圖像任務有哪些，解決什麼樣的圖像問題（eg:圖像分類就是看圖片中的物體具體是什麼。）

常見圖像任務有圖像分割，圖像分類（看圖像中的物體具體是什麼），目標檢測（在給定圖片中找到物體位置），姿態檢測，語義分割（識別圖像中存在的內容和位置），實例分割（在必定像素級對圖像進行識別輪廓的任務）等，主要解決不一樣場景不一樣尺度的圖像問題

註解

備註1：
視頻目標處理涉及的目標分割、目標識別、目標檢測和目標跟蹤都是指什麼？

目標分割

應該是Target Segmentation，應該是data/image segmentation的一種，任務是把目標對應的部分分割出來。對於通常的光學圖像而言，分割像素是一個比較常見的目標，就是要提取哪一些像素是用於表述已知目標的。這種Segmentation能夠是一個分類（classificatio）問題，就是把每個pixel作labeling，提出感興趣的那一類label的像素。也能夠是clustering的問題，便是不知道label，但須要知足一些optimality，好比要cluster之間的correlation最小之類的。固然，答主也見過一些針對其餘數據的目標分割，好比hyperspectral data，也須要分割哪些頻率或者通道對應的是目標。好比視頻流，那段時間對應是目標。
目標識別

應該是Target Recognition。這是一個基於分類（Classification）的識別（Recognition）問題，便是在全部的給定數據中，分類出哪一些sample是目標，哪一些不是。仍是拿圖片做爲數據舉例，這個分類的層面每每不是pixel，給定的一些segment，或者定義的對象（Object），或者圖片自己。
目標檢測

應該是Target Detection。最先的detection system應該是搞雷達的人首先提出而且heavily study的，最簡單的任務就是從看似隨機（random）又充滿干擾（interference）和噪音（noise）的信號中，抓取到有信息的特徵（information-bearing pattern）。最簡單的一個栗子，就是當你拿到一段隨機的雷達回波，能夠設置一個threshold，當高於這個threshold，就認爲是探測到了高速大面積飛行器之類的高回波的目標。固然，這裏面的threshold該怎麼設計，涉及到False Alarm和Miss Detection之間的平衡。人們每每須要尋找最佳的transform或者domain去對信號進行分析。
目標追蹤

應該是Target Tracking。這個任務很重要的第一點是目標定位（Target Locating），並且這個任務設計到的數據通常具備時間序列（Temporal Data）。常見的狀況是首先Target被Identify之後，算法或者系統須要在接下來時序的數據中，快速並高效地對給定目標進行再定位。任務須要區別相似目標，須要避免不要的重複計算，充分利用好時序相關性（Temporal Correlation），而且須要對一些簡單的變化Robust，必須旋轉，遮蓋，縮小放大，Motion Blur之類的線性或者非線性變化。

備註1來源：https://www.zhihu.com/question/36500536

備註2：
Adaboost實時人臉檢測算法如何實現
http://www.javashuo.com/article/p-ubtcqosw-mv.html

備註3：
計算機視覺標準數據集整理—PASCAL VOC數據集
https://blog.csdn.net/xingwei_09/article/details/79142558

備註4：
支持向量機（Support Vector Machine, SVM）

支持向量機（Support Vector Machine, SVM）是一類按監督學習（supervised learning）方式對數據進行二元分類的廣義線性分類器（generalized linear classifier），其決策邊界是對學習樣本求解的最大邊距超平面（maximum-margin hyperplane）
SVM使用鉸鏈損失函數（hinge loss）計算經驗風險（empirical risk）並在求解系統中加入了正則化項以優化結構風險（structural risk），是一個具備稀疏性和穩健性的分類器 [2] 。SVM能夠經過核方法（kernel method）進行非線性分類，是常見的核學習（kernel learning）方法之一
SVM被提出於1964年，在二十世紀90年代後獲得快速發展並衍生出一系列改進和擴展算法，在人像識別、文本分類等模式識別（pattern recognition）問題中有獲得應用 [5-6]

https://baike.baidu.com/item/%E6%94%AF%E6%8C%81%E5%90%91%E9%87%8F%E6%9C%BA/9683835?fromtitle=SVM&fromid=4385807&fr=aladdin