歡迎你們前往騰訊雲+社區,獲取更多騰訊海量技術實踐乾貨哦~git
騰訊雲高級研究員講述,從成像到圖像分析如何入門數據庫
文︱冀永楠網絡
「AI來了」邀請到咱們騰訊雲的高級研究員冀永楠講述圖像分析的那些事兒。框架
從2012年開始,深度學習席捲了圖像識別領域,在圖像分類、目標檢測、語義分割等領域秒殺了傳統的方法。以前也有人寫過如何20分鐘內獲得貓狗分類大賽第二名的卷積神經網絡。儘管識別和檢測問題是圖像分析中難度最高的一部分,在實際應用中,圖像問題都是多個問題的組合,而並不是單一的識別或者檢測問題。機器學習
冀永楠表示,本文是簡單介紹一下成像和圖像分析的基本內容,但願對有興趣解決圖像類問題的同窗有所幫助。性能
冀永楠,諾丁漢大學計算機系博士,歐盟Marie Curie Research Fellow。現爲騰訊雲大數據AI產品中心高級研究員。學習
理解圖像是如何產生的是解決圖像類問題的第一步。最多見的成像方式是單反相機——手機相機等相機的成像方式。下圖選自參考文獻1,直觀的展現了這種成像的原理。現實生活中遇到的成像方式絕大可能是屬於這類成像字體
除此以外,還有以下圖中的X-ray,紅外,顯微,遙感,結構光等多種成像方式。在處理和分析這些圖像的時候,理解圖像的成像方式和其中的內容表達方式對最後的處理效果會起到關鍵的基礎性做用。大數據
以醫用CT圖像爲例,CT圖像的像素值表明着位於改像素位置的物質對X光的衰減程度。骨頭,金屬等能夠形成較大衰減的,會呈現高像素值。空氣幾乎不會形成衰減的,會呈現低像素值。CT像素值有很大的動態範圍。普通圖像像素值通常是0~255。CT的像素值則是-1024~1024。檢查不一樣部位和不一樣疾病的時候,關注的像素值範圍有所不一樣。例如,在AI醫療的肺結節檢測應用場景中,主要關注-1000~200的區域。
圖像處理問題能夠大體的分爲低、中、高三個層次。低層處理主要是圖像的加強、下降噪聲、邊緣等特徵的提取、基本的壓縮等。中層的圖像處理方法通常解決的是圖像的分類,物體的檢測、定位、分割以及圖像的語義分割等。高層的處理是比較複雜的綜合應該用。好比圖像的自動註釋,人臉和人臉姿態的識別,自動駕駛等等。
高級的圖像處理問題須要分解爲多箇中低級的問題。一些端到端的深度網絡,也會將一個網絡分紅幾個子網絡,利用輔助輸入輸出進行訓練。其實本質也是將複雜的高層問題分解爲中級和低級的子問題來解決。好比常見的經過人臉比對進行身份驗證,通常都包括了人臉檢測定位,人臉關鍵點定位,特徵計算和比對的過程。優圖的OCR文字識別,也是由背景識別等三大引擎(定位引擎、字段識別引擎)支撐的。
傳統的圖像分析算法中,各類濾波器的設計佔有很大的一部分比例。理解濾波器的原理和使用的場景是作圖像分析工做中很大的一塊,也是比較痛苦的一塊。由於濾波器的種類繁多,原理不一。對於場景的適用性須要經驗來判斷。比較成功的計算特徵的方法有,邊緣特徵,Scale-invariant feature transform(SIFT),Histogram of Gradient (HOG)等
在特徵計算之上,會設計出和問題相關的模型來描述和解決各類中層的圖像問題。好比,對於人體檢測和定位,Deformable Parts Model(DPM)在深度網絡普及以前是效果很是好的一種模型。這種模型在HOG的特徵上,將一個總體目標分紅幾個小目標進行初級識別,以後綜合判斷小目標之間的關係來定位總體目標的方法。
傳統方法對於分割的問題基於兩點,一是分割的邊界通常處於圖像梯度特徵較大的地方;二是分割出來的區域的形狀通常都是比較規則的。Active Shape, level set 都是相似的方法。更爲複雜一些的,能夠預設分割出來的物體大概的樣子。這種預設稱爲A Priori Information。
卷積神經網絡的崛起能夠說秒殺了不少傳統方法。在分割,分類,檢測等等幾乎全部的中層問題上,深度學習算法在性能上都超出了傳統方法。儘管卷積神經網絡(CNN)本質上能夠認爲是局部的濾波器,可是好在至少數據充足,不須要對濾波器進行過多的設計。深度學習框架能夠很大程度上自動優化好最後結果。不一樣的問題採用不一樣的網絡結構。好比分割問題通常採用反捲積(FCN)網絡。目標檢測問題採用Faster RCNN網絡。
深度網絡進化朝着準確度愈來愈高,應用愈來愈廣的方向發展。一些原有的圖像分析的業界測量標準,例如ImageNet圖像分類,已經變得易如反掌而退出了舞臺。人臉識別也從小數據庫,簡單場景向千萬,甚至億級數據庫,全場景覆蓋發展。
騰訊雲圖像識別能力已經在圖像多標籤分類、敏感圖片審覈(色情/暴恐/政治人物等)、醫學影像識別、人/車/物結構化識別及文字識別(OCR)等細分化場景中進行應用,並在多個領域實現了落地。敏感圖片審覈技術對色情、暴恐等的識別準確率高達99%,成爲網絡環境的淨化器。在醫學領域,騰訊已與超過100家醫院簽署戰略合做,已應用到肺癌早篩、食管癌早篩等項目中,顯著提高看病水平和效率。OCR文字識別系統也普遍應用在金融,酒店,快運等等單據和身份證的識別中,取得了良好的實用效果。
Tips:圖像技術入門資料
1 Rafael C. Gonzalez and Richard E. Woods. 2006. Digital Image Processing (3rd Edition). Prentice-Hall, Inc., Upper Saddle River, NJ, USA.
這本書是圖像處理的數目的經典之做。對於但願理解成像和圖像分析基本原理以及方法的同窗,是必修之做。
CS231n: Convolutional Neural Networks for Visual Recognition
Li Feifei 開設的課程。課程主頁,Youtube, Github上有豐富的資料。對於理解CNN在圖像上的應用和演變是最爲有效的方法。課後做業也不要錯過。
這個不用多說了吧。誰沒Clone過幾個開源項目。
以上就是學習圖像分析的一些方法,更多學習教程,請訪問雲加社區人工智能專欄。
問答
如何從圖像中識別字體系列?
相關閱讀
語音識別中的CTC算法的基本原理解釋
借你一雙「慧眼」:一文讀懂OCR文字識別
「猜畫小歌」的一些細節和思考
雲學院 · 課程推薦 | 知乎KOL,與你分享機器學習中如何作選擇
此文已由做者受權騰訊雲+社區發佈,完整原文請點擊。
搜索關注公衆號「雲加社區」,第一時間獲取技術乾貨,關注後回覆1024 送你一份技術課程大禮包!
海量技術實踐經驗,盡在雲加社區!