1、計算機視覺:算法
三個層次:系統工程方案層、領域任務模塊層、基礎算法層。網絡
三方面知識點:圖像處理、機器學習、基礎數學與模型。併發
視頻的三個場景:近距離(手機、智能硬件、PC等),室內中距離(室內,如辦公室、商場、家內;卡口,門口等),室外遠距離(道路、公共場所等)機器學習
2、系統工程方案層:WEB圖像結構化;離線SDK圖像結構化;視頻關鍵幀獲取、結構化、序列化行爲分析、結果圖流媒體;ide
性能上,高併發;高可用;單張時間,儘可能在200ms之內,尤爲是視頻;準確度。高併發
3、領域任務模塊層:五大領域(人、車、文、物、事)性能
人:人體(檢測、關鍵點、屬性分類、行爲、識別或者以圖搜人);人臉(檢測、關鍵點、屬性分類、活體行爲、識別);學習
車:車輛(檢測、關鍵點、品牌細分類、屬性分類、行爲,識別或者以圖搜車);車牌(檢測、樣式分類、文字識別);3d
文:OCR(圖像預處理、基於圖像分類、所有文字檢測、指定字段定位、文字識別、基於文字內容分類),領域:票據、證件(我的、企業)、證書、車牌、天然場景(內部系統圖像、門牌、站牌、物體等)視頻
物:動物(檢測、關鍵點、品種細分類、屬性分類、行爲、識別或以圖搜動物);物體(檢測、關鍵點、品牌細分類、屬性分類、識別或以圖搜物)
事:特定場景檢測,如煙火、物體遺留、工業視覺等。
4、基礎算法層:三個方面(檢測分割、分類識別、圖像預處理)
檢測分割:定位目標位置、分出目標類別、提取目標關鍵點、從畫面中分割出目標的像素。
分類識別:分類包含三層,大類、屬類、細類,檢測到目標後,目標品牌或者品種細分類、目標屬性分類(顏色、形狀、屬類等)、靜態行爲分類、序列行爲分類;提取目標特徵,結合類別進行以圖搜圖識別。
圖像預處理:圖像加強、去霧、亮度調整、傾斜校訂等。
5、深刻領域體會:
人臉領域,檢測敏感度(人臉傾斜檢測)、誤檢測率,人臉特徵提取速度,人臉識別準確度。
車輛領域,車牌準確度、敏感度;顏色、類型、品牌準確度;車輛總體特徵與內部局部特徵的提取;車輛行爲分析。
文字領域,圖像質量對文字檢測與識別的影響,圖像預處理,文字檢測的準確度與漏檢率,文字識別,文字語義的分析。
視頻領域,三大難題:(1)誤檢較多。(2)漏檢問題,例如遮擋、逆光條件、傾斜姿態較大等狀況沒法檢測到。(3)速度問題,檢測算法速度沒法徹底達到實時性,在100ms之內就不錯。解決速度問題方法:a.視頻關鍵幀或間隔幀;b.圖像壓縮,座標還原;c.耗時模塊在關鍵時刻運行,其餘時刻作數據關聯。
End
聲明:部份內容來源於網絡,僅供讀者學習、交流之目的。文章版權歸原做者全部。若有不妥,請聯繫刪除。