深刻淺出計算機視覺（一）

時間 2019-11-06

原文原文鏈接

本文經過案例引入計算機視覺基本知識，並淺析其基本任務中的圖像分類、圖像分割進展及應用。
歷史文章回顧： HBase Replication詳解

前言

先上幾個計算機視覺應用的案例：
算法

6月6日至8日，在第23屆聖彼得堡國際經濟論壇上，新華社、俄羅斯塔斯社和搜狗公司聯合推出了全球首個俄語AI合成主播，將來它將被應用於塔斯社的新聞報道中。塔斯社是俄羅斯的國家通信社，做爲全球五大通信社之一，對外向115個國家和地區提供新聞信息，在全球範圍都具備普遍影響力。網絡

MAGIC短視頻智能生產平臺由新華社和阿里巴巴聯合成立的新華智雲科技有限公司獨立研發。在世界盃期間，經過MAGIC生產的短視頻達到了37581 條，平均一條視頻耗時50.7秒，全網實現了116604975次播放！而其中製做速度快的一段視頻《俄羅斯2:0領先埃及》，僅耗時6秒！架構

上面的人臉都是AI生成的假臉，這些人都是不存在的，是英偉達的利用GAN模型（生成對抗網絡）生成的數據。併發

計算機視覺(Computer Vision)

計算機視覺的研究目標是使計算機程序可以解讀和理解圖片，不只是理解圖片的顏色，並且是更高層地理解圖片的語義及特徵，通俗的點說就是讓計算機睜眼「看」世界。人類大腦皮層的70%活動都在處理視覺信息，因此從感知的角度來說，視覺是重要的信息感知功能。框架

以下幾件事推進了視覺的發展：機器學習

一、深度學習領域的突破，深度學習搭建在神經網絡之上，而神經網絡的概念則脫胎於上世紀50年代科研人員對人類腦神經系統的研究和模擬。神經網絡的理論在上世紀50年代就有了，可是一直處於淺層的應用狀態，人們沒有想到多層會帶來什麼新的變化。ide

二、英偉達研發了GPU，持續的提升了算力，因爲自然的並行計算和矩陣處理能力，大大加速了圖像處理的過程和神經網絡的計算過程。至今，在2012 年訓練AlexNet模型須要使用兩塊GPU，花費6天時間，到今天作一樣的事情只須要一塊新GPU，十幾分鍾就能搞定。性能

三、斯坦福大學教授李飛飛建立了ImageNet，她把數百萬張照片發到了網絡上並發動羣衆作了標註。真正引發你們注意的就是2012年斯坦福的實驗，過去實驗的圖像樣本數可能是「萬」這個級別，斯坦福用了1000萬，用多層神經網絡來作，結果發如今人臉、人體、貓臉三個圖像類別中，這個模型的識別率大概有7%-10%的提升。這給你們很是大的震動，由於一般識別率要提升1%要作好多努力，如今只是把層數增長了，居然發生兩大變化，一個是識別率提升這麼多；第二個是能處理這麼大數據。這兩個變化給你們很是大的鼓舞，況且在2012年以前，人工智能沒有解決過實際問題。2015 年12月，微軟經過152層的深度網絡，將圖像識別錯誤率在ImageNet上降至3.57%，低於人類的誤識率5.1%。學習

下圖是ImageNet上圖片分類的進展狀況，柱狀圖越低表明錯誤率越低：測試

深度學習(Deep Learning)

咱們如今處於人工智能的第三次崛起。前兩波發生在1950-1960年代和1980-1990 年代，當時都產生了至關大的影響，卻也都慢慢冷卻下來。這是由於當時的神經網絡既沒有實現本該達成的性能提高，也沒有幫助咱們理解生物的視覺系統。第三次浪潮21世紀初至今，這次與前兩次不一樣，深度學習在不少基準測試和現實應用上已經大幅超越了生物的能力。

深度學習通常是指的深度神經網絡，也稱DNN（Deep Neural Networks），神經網絡在20世紀50年代就被提出來了，可是因爲他自己固有的梯度消失，大量參數致使過擬合和計算量太大等問題，致使實際應用效果一直很差。所以在此以前機器學習幾乎一直是SVM一統天下的局面。

深度學習是在2006年Hinton等人被提出以來的，可是其真正的興起，或者說重大影響工做的出現，是在2012年以後，好比，Krizhevsky等用深度學習大幅度提升了圖片分類的準確率，也就是Alex Net的工做。

深度學習在圖像領域應用技術主要是卷積神經網絡CNN（Convolutional Neural Network）。之因此CNN在計算機視覺應用的很是成功，傳統機器學習方法基本被棄之不用。其中大的一個緣由就是，圖像數據的特徵設計，即特徵描述，一直是計算機視覺頭痛的問題，在深度學習突破以前10多年，成功的圖像特徵設計（hand crafted feature）是SIFT，還有著名的BOW（bag ofvisual words），這些都是花了很長時間，須要很是專業的領域知識才設計出來的，這些高成本的模型迭代，使得的過去視覺算法的發展很是緩慢。能夠參考以下的流程圖，上面是傳統的機器學習流程：

關於深度學習的熱門的應用領域能夠參考下圖（2018年根據paperswithcode的統計結果）

如今深度學習應該比較成功的領域是計算機視覺、語音識別和自研語言處理，隨着AlphaGo和OpenAI的成功，加強學習也慢慢在興起。

基本任務

計算機視覺領域包含不少任務，可是基本的任務是圖像分類、圖像檢測/定位，圖像關鍵點定位，圖像分割，這些任務已經發展多年，並且由於其基礎的地位，會深入影響其餘領域（好比人臉識別、OCR）的發展，下面分別簡單的介紹下各個任務的新進展狀況。

圖像分類進展

圖像分類是指給定一張輸入圖像，判斷該圖像所屬類別，通俗點說就是讓機器理解這個圖像是什麼或者說有什麼（貓、狗等）。圖像分類是計算機視覺中基礎的一個任務，也是幾乎全部的基準模型進行比較的任務。從開始比較簡單的10分類的灰度圖像手寫數字識別任務mnist，到後來更大一點的10 分類的cifar10和100分類的cifar100 任務，到後來的imagenet 任務，圖像分類模型伴隨着數據集的增加，一步一步提高到了今天的水平。如今，在 imagenet 這樣的超過1000萬圖像，超過2萬類的數據集中，計算機的圖像分類水準已經超過了人類。

根據圖片內容的不一樣，能夠分爲物體分類、場景分類和行爲事件分類。

根據分類的精細程度，能夠分爲粗粒度分類和細粒度分類。

根據分類標籤的相關性，能夠分爲單標籤分類和多標籤分類。

圖像分類問題的困難和挑戰：剛體&非剛體的變化、多視角、尺度、遮擋、光照條件、類內差別，參考下圖：

單標籤分類

單標籤分類是簡單的分類任務，圖片的內容相對簡單，只包含一個物體或者場景。ImageNet就屬於單標籤分類的數據集。下面經過ImageNet比賽的時間脈絡，介紹下單標籤分類的進展狀況。

AlexNet：2012年提出的AlexNet網絡結構模型引爆了神經網絡的應用熱潮，並贏得了2012屆圖像識別大賽的冠軍，使得CNN成爲在圖像分類上的核心算法模型。

ZFNet：2013年ILSVRC分類任務冠軍網絡是Clarifai，不過更爲咱們熟知的是ZFNet。Hinton的學生Zeiler和Fergus在研究中利用反捲積技術引入了神經網絡的可視化，對網絡的中間特徵層進行了可視化，爲研究人員檢驗不一樣特徵激活及其與輸入空間的關係成爲了可能。在這個指導下對AlexNet網絡進行了簡單改進，包括使用了更小的卷積核和步長，將11x11的卷積核變成7x7的卷積核，將stride從4變成了2，性能超過了原始的AlexNet網絡。

VGGNet：2014年的亞軍，VGGNet包括16層和19層兩個版本，共包含參數約爲550M。所有使用3×3的卷積核和2×2的大池化核，簡化了卷積神經網絡的結構。VGGNet很好的展現瞭如何在先前網絡架構的基礎上經過簡單地增長網絡層數和深度就能夠提升網絡的性能。雖然簡單，可是卻異常的有效，在今天，VGGNet仍然被不少的任務選爲基準模型。

GoogLeNet：來自於Google的Christian Szegedy等人提出的22層的網絡，其top-5分類錯誤率只有6.7%。GoogleNet的核心是Inception Module，它採用並行的方式。一個經典的inception結構，包括有四個成分。1×1卷積，3×3卷積，5×5卷積，3×3大池化，後對四個成分運算結果進行通道上組合。這就是Inception Module的核心思想。經過多個卷積核提取圖像不一樣尺度的信息而後進行融合，能夠獲得圖像更好的表徵。自此，深度學習模型的分類準確率已經達到了人類的水平(5%~10%)。

ResNet：2015年得到了分類任務冠軍。它以3.57%的錯誤率表現超過了人類的識別水平，並以152層的網絡架構創造了新的模型記錄。因爲ResNet 採用了跨層鏈接的方式，它成功的緩解了深層神經網絡中的梯度消散問題，爲上千層的網絡訓練提供了可能。

ResNeXt：2016年依舊誕生了許多經典的模型，包括贏得分類比賽第二名的ResNeXt，101層的ResNeXt能夠達到ResNet152的精確度，卻在複雜度上只有後者的一半，核心思想爲分組卷積。即首先將輸入通道進行分組，通過若干並行分支的非線性變換，後合併。

DenseNet：在ResNet基礎上，密集鏈接的DenseNet在前饋過程當中將每一層與其餘的層都鏈接起來。對於每一層網絡來講，前面全部網絡的特徵圖都被做爲輸入，同時其特徵圖也都被後面的網絡層做爲輸入所利用。DenseNet中的密集鏈接還能夠緩解梯度消失的問題，同時相比ResNet，能夠更強化特徵傳播和特徵的複用，並減小了參數的數目。DenseNet相較於ResNet所需的內存和計算資源更少，並達到更好的性能。

SeNet：2017年也是ILSVRC圖像分類比賽的後一年，SeNet得到了冠軍。這個結構，僅僅使用了「特徵重標定」的策略來對特徵進行處理，經過學習獲取每一個特徵通道的重要程度，根據重要性去下降或者提高相應的特徵通道的權重。

至此，圖像分類的比賽基本落幕，也接近算法的極限。可是，在實際的應用中，卻面臨着比比賽中更加複雜和現實的問題，須要你們不斷積累經驗。

目前，隨着NASNet（Neural Architecture Search Network）的崛起，效果好的基本都是這些網絡好比：NASNet、PNasNet、AmoebaNet，尤爲是近Google新出的EfficientNet，更是對其餘網絡有碾壓式的提高，下面的圖片一目瞭然：

細粒度圖像分類

細粒度圖像分類 (Fine-Grained Image Categorization)，是對屬於同一基礎類別的圖像（汽車、狗、花、鳥等）進行更加細緻的子類劃分（好比：區分狗的種類薩摩仍是哈士奇）。細粒度分類有不少實際的應用場景，好比區分在交通監控中，識別不一樣的車型。

因爲分類的粒度很小，子類之間差別細微，只在某個局部上有細微差別（如狗的眼睛），甚至在某些類別上甚至專家都難以區分，再加上子類內部差別巨大，如姿態、背景帶來的差別，還有受視角、背景、遮擋的干擾等，因此細粒度圖像分類比粗粒度分類要困難，也所以仍是目前比較熱門的研究領域。

因爲深度卷積網絡可以學習到很是魯棒的圖像特徵表示，對圖像進行細粒度分類的方法，大多都是以深度卷積網絡爲基礎的，這些方法大體能夠分爲如下四個方向：

一、基於常規圖像分類網絡的微調方法

這一類方法大多直接採用常見的深度卷積網絡來直接進行圖像細粒度分類，好比ResNet、DenseNet、SENet等。因爲這些分類網絡具備較強的特徵表示能力，所以在常規圖像分類中能取得較好的效果。然而在細粒度分類中，不一樣物種之間的差別其實十分細微，所以，直接將常規的圖像分類網絡用於對細粒度圖像的分類，效果並不理想。受遷移學習理論啓發，一種方法是將大規模數據上訓練好的網絡遷移到細粒度分類識別任務中來。經常使用的解決方法是採用在ImageNet上預訓練過的網絡權值做爲初始權值，而後再經過在細粒度分類數據集上對網絡的權值進行微調（FineTune），獲得終的分類網絡。

二、基於基於網絡集成的方法

比較有表明性的是雙線性卷積神經網絡模型（Bilinear CNN），該方法使用VGG-D和VGG-M兩個網絡做爲基準網絡，經過Bilinear Pooling獲得兩個特徵融合後的向量，進而用來分類。在不使用Bounding Box （邊框）標註信息的狀況下，在CUB200-2011數據集上到達了84.1%的分類精度，而使用

BoundingBox時，其分類精度高達85.1%。

三、基於目標塊的檢測(part detection)和對齊(alignment)的方法

基於目標塊（object part）檢測的方法思路是：先在圖像中檢測出目標所在的位置，而後再檢測出目標中有區分性區域的位置，而後將目標圖像（即前景）以及具備區分性的目標區域塊同時送入深度卷積網絡進行分類。可是，基於目標塊檢測的方法，每每在訓練過程當中須要用到目標的Bounding box標註信息，甚至是目標圖像中的關鍵特徵點信息，而在實際應用中，要想獲取到這些標註信息是很是困難的。比較有表明性的是2014年ECCV中提出來的Part-RCNN方法。

四、基於視覺注意機制(visual attention)的方法

視覺注意機制(Vision Attention Mechanism)是人類視覺所特有的信號處理機制。具體表現爲視覺系統在看東西的時候，先經過快速掃描全局圖像得到須要關注的目標區域，然後抑制其餘無用信息以獲取感興趣的目標。在深度卷積網絡中，一樣可以利用注意模型來尋找圖像中的感興趣區域或區分性區域，而且對於不一樣的任務，卷積網絡關注的感興趣區域是不一樣的。因爲基於視覺注意模型（Vision Attention Model）的方法能夠在不須要額外標註信息（好比目標位置標註框和重要部件的位置標註信息）的狀況下，定位出圖像中有區分性的區域，近年來被普遍應用於圖像的細粒度分類領域。表明性的工做是17年CVPR中提出的循環注意卷積神經網絡(Recurrent Attention Convolutional Neural Network, RA-CNN)。

目前全部細粒度圖像識別任務均需藉助大量、甚至海量的標註數據。對於細粒度圖像而言，其圖像收集和標註成本巨大。如此便限制了細粒度研究相關的發展及其在現實場景下的應用。反觀人類，咱們則具有在極少監督信息的條件下學習新概念的能力，例如，對於一個普通成年人可僅藉助幾張圖像便學會識別鳥類的一個新物種。爲了使細粒度級別圖像識別模型也能像人類同樣擁有少許訓練樣本下的學習能力，研究人員也在研究細粒度級別圖像識別的少許樣本學習任務，這可能也是未來的發展趨勢。

多標籤分類

前面所說的分類，所有都是單標籤分類問題，即每個圖只對應一個類別，而不少的任務，實際上是多標籤分類問題，一張圖能夠對應多個標籤，相比於多類別圖像分類，多標籤任務的難度更大，由於其輸出空間隨着類別數目呈指數增大。多標籤分類問題一般有以下的策略：一階策略：樸素的方法，忽略和其它標籤的相關性，分離地看待各個目標，好比把多標籤分解成多個獨立的二分類問題（簡單高效）。

二階策略：考慮標籤之間的成對關聯，好比爲相關標籤和不相關標籤排序。

高階策略：考慮多個標籤之間的關聯，好比對每一個標籤考慮全部其它標籤的影響（效果優）。

稍微展開講講高階策略：因爲現實世界中不少物體一般會同時出現，所以對標籤之間的相關性進行建模就成了多標籤圖像識別的關鍵，以下圖所示：

大致上有兩個方向，能夠對多個角度探索標籤之間相關性進行建模。一個是基於機率圖模型或循環神經網絡（RNN），顯式地對標籤依賴性進行建模。另外一個是經過注意力機制來對標籤相關性進行隱式建模。該方法考慮的是圖像中被注意區域之間的關係（可視爲局部相關性）。不過即使如此，該方法仍是忽略了圖像中標籤之間的全局相關性（全局相關性須要經過單張圖像以外的知識才能推斷出來）。

例如：ML-GCN使用圖（Graph）來對標籤之間的相互依賴關係進行建模。可以靈活地獲取標籤空間中的拓撲結構，在MS-COCO和VOC2007測試集上都取得了有的結果。

目標檢測進展

目標檢測任務的目標是給定一張圖像或是一個視頻幀，讓計算機找出其中全部目標的位置，並給出每一個目標的具體類別，它結合了目標分類和定位兩個任務，通俗的說就是要機器告訴圖片中有什麼同時告訴在哪裏。檢測是不少計算機視覺應用的基礎，好比實例分割、人體關鍵點提取、人臉識別等。現代大多數目標檢測器的框架是Two-Stage，其中目標檢測被定義爲一個多任務學習問題：

（1）區分前景物體框與背景併爲它們分配適當的類別標籤；

（2）迴歸一組係數使得大化檢測框和目標框之間的交併比（IoU）或其它指標。後，經過一個 NMS 過程移除冗餘的邊界框（對同一目標的重複檢測）。

Anchor-Based方法

傳統Anchor-Based方法，都是用策略提出一些候選框（prior box or anchor box），而後對這些候選框作分類和位置的歸回。方法是對這些框所對應的 featuremap向量做分類（softmax）或者回歸（線性迴歸），獲得box的位置和類別。

OneStage算法是直接在網絡中提取特徵來預測物體分類和位置，Two Stage算法是指首先生成proposal，而後進行細粒度的物體檢測。

現代大多數目標檢測器的框架是兩步進行：

（1）RPN：區分前景物體框與背景併爲它們分配適當的類別標籤；

（2）迴歸一組係數使得大化檢測框和目標框之間的交併比（IoU）或其它指標後，經過一個 NMS 過程移除冗餘的邊界框（對同一目標的重複檢測）。

目標檢測的重要技術路線圖以下圖描述的很清晰：

圖中的里程碑檢測器: VJ Det， HOG Det，DPM， RCNN， SPPNet， Fast RCNN， Faster RCNN， YOLO， SSD， PyramidNetworks，RetinaNet。

以下是各個檢測模型在VOC0七、VOC12和MS-COCO數據集上的檢測結果圖：

篇幅所限，之後有機會再對每一個具體的檢測器作具體的展開講解。

Anchor-Free方法

自從去年8月CornerNet開始，Anchor-Free的目標檢測模型層出不窮，近開始熱門起來。所謂Anchor-Free是指檢測時不用現預設一些參考的Anchor-

Box，而是直接經過模型預測目標的位置和類別，好比經過關鍵點的方式。

其實 Anchor-Free並非一個新概念了，早能夠追溯的百度的DenseBox模型（此模型2015年提出，比Fast-RCNN還要早），大火的YOLO也算是目標檢測領域的Anchor-Free模型，而近的Anchor-Free模型如FASF、FCOS、FoveaBox都能看到DenseBox的影子。比較有表明性的Anchor-Free模型有：DenseBox、YOLO、CornerNet、ExtremeNet、FSAF、FCOS、FoveaBox。

雖然目前Anchor-Free的方法尚未徹底賽過傳統的Anchor-Based方法，可是確實提供一種可行新的檢測流程，主要的是對於BoundingBox是不是檢測的合理的表達，提出了挑戰，後面隨着Anchor-Free模型的演進，可能會產生出搞好的目標表達方式。

圖像分割進展

圖像分割就是把圖像分紅若干個特定的、具備獨特性質的區域並提出感興趣目標的技術和過程，能夠被看做是一個逐像素的圖像分類問題。分割任務主要分爲語義分割（semantic segmentation）、實例分割（instancesegmentation）以及今年剛興起的新領域全景分割（panoptic segmentation），上圖展現了不一樣分割的區別。

稍微展開說明一下不一樣分割任務：

語義分割：語義分割更注重「類別之間的區分」，語義分割會重點將前景裏的人羣和背景裏樹木、天空和草地分割開，可是它不區分人羣的單獨個體，如圖中的人所有標記爲紅色，致使右邊黃色框中的人沒法辨別是一我的仍是不一樣的人。主要模型有U-Net、SegNet、DeepLab系列、FCN、ENet、ICNet、ShelfNet、BiseNet、DFN和CCNet等網絡。

實例分割：更注重「個體之間的區分」，實例分割這個問題近幾年的發展在很大程度上是由 COCO 數據集和比賽推進的。從 MNC，FCIS 到PANet，都是在 COCO instance segmentation track 上拿第一名的方法。主要模型有FCIS、DeepMask、MaskR-CNN 、Hybrid Task Cascade（HTC）、PANet 等網絡。

全景分割：新的子任務，先由FAIR與德國海德堡大學聯合提出，能夠說是語義分割和實例分割的結合，全景分割任務下，圖像內的每一個像素點都有其對應的語義標籤和實例標籤，從而可以大程度上地理解整幅圖像。主要模型有JSIS-Net、TASCNet等。

圖像分割模型

圖像分割大致框架或者說流程以下：

下采樣+上採樣：Convlution + Deconvlution／Resize。

多尺度特徵融合：特徵逐點相加／特徵channel維度拼接。

得到像素級別的segement map：對每個像素點進行判斷類別。

下圖展現了圖像分割進展的技術圖譜：

一、FullyConvolutional Networks (FCN)：這是神經網絡作語義分割的開山之做，提出了全卷積網絡。將全鏈接網絡替換成了卷積網絡，使得網絡能夠接受任意大小的圖片，並輸出和原圖同樣大小的分割圖。只有這樣，才能爲每一個像素作分類。使用了反捲積層（Deconvolution），特徵圖進行上採樣。

二、SegNet在FCN的基礎上增長了解碼器，造成目前分割任務中流行的編解碼結構，並給出了不一樣解碼器對效果的影響和緣由。

三、DeepLabv1/v2/v3：引入了帶洞卷積（Dilated Convolution or Atrous Convolution），使得視野更大了。

四、PSPNet：核心貢獻是全局金字塔池化（Global Pyramid Pooling），將特徵圖縮放到幾個不一樣的尺寸，使得特徵具備更好地全局和多尺度信息。

五、MaskR-CNN：將Object Detection與SemanticSegmentation合在了一塊兒作，提出了RoiAlign用來替換RoiPooling，消除了取整致使的偏移問題，提升了檢測精度。

六、U-Net：採用了編解碼結構，編碼部分，每通過一個池化層就構造一個新的尺度，包括原圖尺度一共有5個尺度。解碼部分，每上採樣一次，就和特徵提取部分對應的通道數相同尺度融合。這樣就得到了更豐富的上下文信息，在Decode的過程當中經過多尺度的融合豐富了細節信息，提升分割的精度。

摳圖（Image Matting）

Matting也是一類前背景分割問題，可是matting不是硬分割，而是軟分割（Soft Segmentation），像玻璃、頭髮這類前景，對應像素點的顏色不僅是由前景自己的顏色決定，而是前背景顏色融合的結果，matting問題的目標就是，找出前背景顏色，以及它們之間的融合程度。

摳圖（ImageMatting）只將圖片分紅前景和背景兩塊，目的是拿到前景，好的摳圖算法會對於頭髮等細節的處理效果比較精確。摳圖和分割的重要區別是分割是返回像素分類結果，分類結果是整型；而摳圖返回的是屬於前景或背景的機率p，在前景與背景交互區域會產生漸變的效果，使得摳圖更加天然。

摳圖技術的核心問題是解公式：I = αF + (1-α)B，其中I是圖像當前可觀察的像素，爲已知量；α是透明度，F是前景像素，B是背景像素，這三個變量爲未知量。對於這個公式的理解，能夠把原始圖像看作是前景和背景按照必定權重（α透明度）疊加組成的。對於徹底肯定是前景的像素，α = 1；對於徹底肯定是背景的像素，α = 0；對於不肯定是前景仍是背景的像素，α是介於0到1之間的浮點數。

優秀的摳圖算法是有能力將前景中很是細小的毛髮細節都能提取出的好算法，這點是傳統圖像分割技術作不到的。

如今深度學習也慢慢引入了Image Matting，基本上用的方法也是Encoder-Decoder框架，只是訓練數據的GroundTruth變成了trimap。比較有表明性的是adobe搞的end to end的方案DeepImage Matting。

因爲應用場景沒有其餘分割普遍，再加上數據集和benchmark的欠缺，致使Matting技術沒有其餘的分割技術熱度高。

後續

固然計算機視覺不止這些任務，分類、檢測和分割只是計算機視覺的最基礎的任務，而這些任務由於其基礎性和通用性，在其餘任務中都會用的到。好比人臉領域，也會用到檢測和分類，在作特效的時候也會用到分割。而文中介紹的基礎的網絡結構，好比ResNet、GoogleNet等，在其餘任務中也會用到。

深度視覺領域，除了這些還有不少沒有涉及到，好比關鍵點檢測、視頻分類、視頻檢測和追蹤、生成對抗網絡（GAN）、自動學習（AutoML），垂直領域的人臉識別、光學字符識別（OCR）、行人再識別，包括經常使用的深度學習框架tensorflow、pytorch等，還有一直在研究的無/弱監督學習、自監督學習，加強學習等，每一個子領域展開講都須要很大的篇幅，後面會再介紹這些方向的進展。

參考資料：

一、https://blog.csdn.net/xys430381_1/article/details/89640699

二、https://medium.com/atlas-ml/state-of-deep-learning-h2-2018-review-cc3e490f1679

三、https://zhuanlan.zhihu.com/p/57643009

四、https://zhuanlan.zhihu.com/p/62212910

五、https://cloud.tencent.com/developer/article/1428956

本文首發於公衆「小米雲技術」，轉載請標明出處，點擊查看原文連接。