智能圖像識別初探系列(一)

CDA數據分析師 出品

1、何爲識別?

想必各位機友都知道圖像識別技術是人工智能的一個重要領域。隨着計算機技術的迅速發展和科技的不斷進步,圖像識別技術已經在衆多領域中獲得了應用,其產生的目的是爲了讓計算機代替人類去處理大量的物理信息,並以此用來識別不一樣模式下目標和對象的一門技術。算法

那麼何爲識別呢?所謂的圖像識別,顧名思義,就是對圖像作出各類處理、分析,最終識別咱們所要研究的目標。正如咱們在圖中所看到的,咱們人類能識別出飛機、人、汽車、交通標誌等等,而且咱們還能把收集到的信息作更多的處理。編程

而「計算機的圖像識別」和「人類的圖像識別」在原理上並無本質的區別,只是要處理的信息更加繁瑣,而且計算機缺乏人類在感受與視覺差上的影響。其實和人類同樣,咱們在識別某種物品的時候也不僅僅是憑藉整個圖像存儲在腦海中的記憶來識別的,咱們識別圖像都是依靠圖像所具備的自己特徵而先將這些圖像分了類,而後經過各個類別所具備的特徵將圖像識別出來的,只是不少時候咱們沒有意識到這一點。好比說咱們看到一朵玫瑰花,咱們是如何知道這是一朵玫瑰花的呢?咱們會根據小時候從父母、老師、書籍等等「歷史數據標籤」所得到的學習結果,當看到一朵花時,咱們就可以從它的特徵中瞭解到是否帶刺?是不是玫瑰花的花瓣形狀?什麼顏色?葉子的形狀等等,進而識別出這朵花是不是玫瑰花,仍是說是其餘種類的花朵。網絡

計算機的圖像識別發展到目前也存在不少不一樣的技術方法,大體能夠分爲傳統的圖像識別方法和在其基礎上融合神經網絡算法的識別方式。神經網絡圖像識別技術是一種比較新型的圖像識別技術,這裏的神經網絡是指人工神經網絡,也就是說這種神經網絡並非動物自己所具備的真正的神經網絡,而是人類模仿動物神經網絡後人工創造的。在神經網絡圖像識別技術中,以卷積神經網絡爲基礎結合造成的深度學習模型可謂是人工智能領域的新星,在諸多人工智能領域,特別是圖像識別領域取得了使人矚目的進展。機器學習

2、人工智能的核心驅動力

上文屢次提到了人工智能和深度學習,那麼在和你們分享圖像識別技術前,咱們先來了解下學習智能圖像識別所要具有的基本核心概念知識。分佈式

人工智能的核心驅動力是機器學習。而深度學習是機器學習機器學習的一個特定分支。咱們要想充分理解深度學習,必須對機器學習的基本原理有深入的理解。性能

機器學習算法是一種可以從數據中學習的算法,而後咱們所謂的「學習」是什麼意思呢?學習

Mitchell提供了一個簡潔的定義:「對於某類任務T和性能度量P,一個計算機程序被認爲能夠從經驗E中學習是指,經過經驗E改進後,它在任務T上由性能度量P衡量的性能有所提高。」優化

經驗E、任務T和性能度量P的定義範圍很是寬廣,例如你們所熟知的線性迴歸算法。編碼

3、機器學習算法的侷限性

咱們將機器學習算法定義爲:經過經驗以提升計算機程序在某些任務上性能的算法。若是咱們如今有樣本X,要獲得結果Y,就能夠用以下的公式所表示:人工智能

雖然機器學習的研究來源於人工智能領域,可是機器學習的方法卻應用於數據科學領域,所以咱們將機器學習看做是一種數學建模更合適。

機器學習的本質就是藉助數學模型理解數據。當咱們給模型裝上能夠適應觀測數據的可調參數時,「學習」 就開始了;此時的程序被認爲具備從數據中 「學習」 的能力。一旦模型能夠擬合舊的觀測數據,那麼它們就能夠預測並解釋新的觀測數據。

可是簡單的機器學習算法不能成功解決人工智能中的核心問題。譬如模式識別、語音識別等過程當中,傳統的機器學習技術每每使用原始形式來處理天然數據,模型的學習能力收到很大的限制,構成一個模式識別或機器學習系統每每須要至關的專業知識來從原始數據中(如圖像的像素值)提取特徵,並轉換成一個適當的內部表示。而深度學習則具備自動提取特徵的能力,它是一種針對表示的學習。

深度學習能容許多個處理層組成複雜的計算模型,從而自動獲取數據的特色和多個抽象類別。這類方法都大大地推進了語音識別、視覺識別物體、物體檢測、藥物發現和基因組學等領域的發展,經過使用神經網絡算法,深度學習有能力發如今大的數據集的隱含的複雜結構。

在神經網絡算法體系中,前饋神經網絡有一種特殊的類型,即爲卷積神經網絡(CNN)。人們廣泛認爲這種前饋網絡是更容易被訓練而且具備更好的泛化能力,尤爲是圖像領域。卷積神經網絡已經在計算機視覺領域被普遍採用。

4、圖像識別流程

圖像識別過程可分爲圖像處理和圖像識別兩個部分。

1. 圖像處理

圖像處理(imageProcessing)是利用計算機對圖像進行分析,以達到所需的結果。

圖像處理可分爲「模擬圖像處理」和「數字圖像處理」,而圖像處理通常指的是「數字圖像處理」。 這種處理大多數是依賴於軟件實現的。

其目的是去除干擾、噪聲,將原始圖像編程適於計算機進行特徵提取的形式,主要包括圖像採樣、圖像加強、圖像復原、圖像編碼與壓縮和圖像分割。

1.1 圖像採集

圖像採集是數字圖像數據提取的主要方式。數字圖像主要藉助於數字攝像機、掃描儀、數碼相機等設備通過採樣數字化獲得的圖像,也包括一些動態圖像,並能夠將其轉爲數字圖像,和文字、圖形、聲音一塊兒存儲在計算機內,顯示在計算機的屏幕上。圖像的提取是將一個圖像變換爲適合計算機處理的形式的第一步。

1.2 圖像加強

圖像在成像、採集、傳輸、複製等過程當中圖像的質量或多或少會形成必定的退化,數字化後的圖像視覺效果不是十分滿意。爲了突出圖像中感興趣的部分,使圖像的主體結構更加明確,必須對圖像進行改善,即圖像加強。

經過圖像加強,能夠減小圖像中的圖像的噪聲,改變原來圖像的亮度、色彩分佈、對比度等參數。圖像加強提升了圖像的清晰度、圖像的質量,使圖像中的物體的輪廓更加清晰,細節更加明顯。圖像加強不考慮圖像降質的問題,加強後的圖像更加賞欣悅目,也爲後期的圖像分析和圖像理解奠基基礎。

1.3 圖像復原

圖像復原也稱圖像恢復,因爲在獲取圖像時環境噪聲的影響、運動形成的圖像模糊、光線的強弱等緣由使得圖像模糊,爲了提取比較清晰的圖像須要對圖像進行恢復,圖像恢復主要採用濾波方法,從降質的圖像恢復原始圖。圖像復原的另外一種特殊技術是圖像重建,該技術是從物體橫剖面的一組投影數據創建圖像。

1.4 圖像編碼與壓縮

數字圖像的顯著特色是數據量龐大,須要佔用至關大的存儲空間。但基於計算機的網絡帶寬和的大容量存儲器沒法進行數據圖像的處理、存儲、傳輸。爲了能快速方便地在網絡環境下傳輸圖像或視頻,那麼必須對圖像進行編碼和壓縮。

目前,圖像壓縮編碼已造成國際標準,如比較著名的靜態圖像壓縮標準JPEG,該標準主要針對圖像的分辨率、彩色圖像和灰度圖像,適用於網絡傳輸的數碼相片、彩色照片等方面。因爲視頻能夠被看做是一幅幅不一樣的但有緊密相關的靜態圖像的時間序列,所以動態視頻的單幀圖像壓縮能夠應用靜態圖像的壓縮標準。圖像編碼壓縮技術能夠減小圖像的冗餘數據量和存儲器容量、提升圖像傳輸速度、縮短處理時間。

1.5 圖像分割

圖像分割是把圖像分紅一些互不重疊而又具備各自特徵的子區域,每一區域是像素的一個連續集,這裏的特性能夠是圖像的顏色、形狀、灰度和紋理等。

圖像分割根據目標與背景的先驗知識將圖像表示爲物理上有意義的連通區域的集合。即對圖像中的目標、背景進行標記、定位,而後把目標從背景中分離出來。目前,圖像分割的方法主要有基於區域特徵的分割方法、基於相關匹配的分割方法和基於邊界特徵的分割方法。因爲採集圖像時會受到各類條件的影響會是圖像變得模糊、噪聲干擾,使得圖像分割會遇到困難。在實際的圖像中需根據物體條件的不一樣選擇適合的圖像分割方法。圖像分割爲進一步的圖像識別、分析和理解奠基了基礎。

2. 圖像識別

根據不一樣的條件作完了圖像處理後,接着就是識別的過程了。圖像識別將圖像處理獲得的圖像進行「特徵提取」和「特徵分類」。

此時,咱們運用的方法就是上文所提到的神經網絡算法(NeuralNetwork)。

神經網絡系統是由大量的,同時也是很簡單的處理單元(稱爲神經元),經過普遍地按照某種方式相互鏈接而造成的複雜網絡系統。雖然每一個神經元的結構和功能十分簡單,但由大量的神經元構成的網絡系統的行爲倒是豐富多彩和十分複雜的。它更像是反映了人腦功能的許多基本特徵,是人腦神經網絡系統的簡化、抽象和模擬。

傳統的機器學習算法(這裏特指符號處理)更側重於模擬人的邏輯思惟,而神經網絡則側重於模擬和實現人的認知過程當中的感知過程、形象思惟、分佈式記憶和自學習自組織過程,與符號處理是一種互補的關係。因爲神經網絡具備非線性映射逼近、大規模並行分佈式存儲和綜合優化處理、容錯性強、獨特的聯想記憶及自組織、自適應和自學習能力,於是特別適合處理須要同時考慮許多因素和條件的問題以及信息不肯定性(模糊或不精確)問題。可是在實際應用中,神經網絡算法對硬件要求較高,算法收斂速度慢、訓練量大、訓練時間長,且計算的思路傾向局部最優解,識別分類精度不穩定,難以適用於常常出現新模式的場合,於是對於神經網絡的研究和深化也一直在不斷的進行着。

上文咱們提到神經網絡結構中的卷積神經網絡被普遍運用與圖像識別過程當中,那麼它是如何在特徵提取和特徵分類中發揮做用的呢?咱們且看下回分解~

獲取更多優質內容,可前往:疫情當下,腳步放慢了,也是提高本身的好時機,爲將來蓄能——蓄勢待發!

相關文章
相關標籤/搜索