淺談機器學習分類算法

目前隨着人工智能的發展,機器學習的應用領域日益寬泛,各類機器學習適應不一樣的應用場景,而機器學習差異的關鍵點之一就在於所使用算法的不一樣,今天就爲你們介紹 4 種主要的分類算法。html

樸素貝葉斯分類

樸素貝葉斯分類是基於貝葉斯定理與特徵條件獨立假設的分類方法,發源於古典數學理論,擁有穩定的數學基礎和分類效率。它是一種十分簡單的分類算法,固然簡單並不必定很差用。經過對給出的待分類項求解各項類別的出現機率大小,來判斷此待分類項屬於哪一個類別,而在沒有多餘條件的狀況下,樸素貝葉斯分類會選擇在已知條件下,機率最大的類別。算法

貝葉斯分類算法的實質就是計算條件機率的公式。在事件 B 發生的條件下,事件 A 發生的機率爲 P(A | B)來表示。網絡

 

P(A | B)的機率爲機器學習

 

 

在平常應用中,咱們常常能夠直接得出 P(A | B),而 P(B | A)直接獲得比較困難,經過貝葉斯定理就能夠經過 P(A | B)得到 P(B | A)。函數

而樸素貝葉斯分類的正式定義則以下:性能

樸素貝葉斯算法在執行文本分類等工做是會有很好的效果,好比樸素貝葉斯算法常被使用於垃圾郵件的過濾分類中。學習

SVM算法

支持向量機(Support Vector Machine,常簡稱爲 SVM)是一種監督式學習的方法,可普遍地應用於統計分類以及迴歸分析。支持向量機屬於通常化線性分類器,它可以同時最小化經驗偏差與最大化幾何邊緣區,所以支持向量機也被稱爲最大邊緣區分類器。測試

同時支持向量機將向量映射到一個更高維的空間裏,在這個空間裏創建有一個最大間隔超平面。在分開數據的超平面的兩邊建有兩個互相平行的超平面,分隔超平面使兩個平行超平面的距離最大化。假定平行超平面間的距離或差距越大,分類器的總偏差越小。人工智能

 

SVM 算法雖然存在難以訓練和難以解釋的問題,可是在非線性可分問題上的表現十分優秀,在非線性可分問題中常選擇 SVM 算法。rest

基於 KNN 的算法

K - 近鄰算法,簡稱 KNN(k-Nearest Neighbor),它一樣是一個比較簡單的分類、預測算法。對選取與待分類、待預測數據的最類似的 K 個訓練數據,經過對這 K 個數據的結果或者分類標號取平均、取衆數等方法獲得待分類、待預測數據的結果或者分類標號。

 

K - 近鄰算法如上圖所示,有兩類不一樣的樣本數據,分別用藍色的小正方形和紅色的小三角形表示,而圖正中間的那個綠色的圓所標示的數據則是待分類的數據。在不知道中間那個綠色的數據是從屬於哪一類(藍色小正方形or紅色小三角形)的狀況下,咱們能夠從它的臨近的樣本進行判斷。

若是 K=3,綠色圓點最近的 3 個鄰居是 2 個紅色小三角形和 1 個藍色小正方形,少數從屬於多數,基於統計的方法,斷定綠色的這個待分類點屬於紅色的三角形一類。

若是 K=5,綠色圓點的最近的 5 個鄰居是 2 個紅色三角形和 3 個藍色的正方形,仍是少數從屬於多數,基於統計的方法,斷定綠色的這個待分類點屬於藍色的正方形一類。

從上文咱們看到,當沒法斷定當前待分類點是從屬於已知分類中的哪一類時,能夠依據統計學的理論看它所處的位置特徵,衡量它周圍鄰居的權重,而把它歸爲(或分配)到權重更大的那一類,這就是 K 近鄰算法的核心思想。

KNN 算法相比其餘算法也更加簡單,而且易於理解、實現,無需估計參數與訓練。適合對稀有事件進行分類和多分類方面的問題,在這類問題方面 KNN 算法的表現比 SVM 更好。

人工神經網絡算法

人工神經網絡,簡稱神經網絡或類神經網絡,是一種模仿生物神經網絡結構和功能的數學模型或計算模型,用於對函數進行估計或近似。神經網絡由大量的人工神經元聯結進行計算。大多數狀況下人工神經網絡能在外界信息的基礎上改變內部結構,是一種自適應系統。

下圖爲人工神經網絡示意圖,人工神經網絡由不少的層組成,最前面這一層叫輸入層,最後面一層叫輸出層,最中間的層叫隱層,而且每一層有不少節點,節點之間有邊相連的,每條邊都有一個權重。對於文原本說輸入值是每個字符,對於圖片來講輸入值就是每個像素。

 

 

 

人工神經網絡是如何工做的?

1.前向傳播:對於一個輸入值,將前一層的輸出與後一層的權值進行運算,再加上後一層的偏置值獲得了後一層的輸出值,再將後一層的輸出值做爲新的輸入值傳到再後面一層,一層層傳下去獲得最終的輸出值。

2.反向傳播:前向傳播會獲得預測值,可是這個預測值不必定是真實的值,反向傳播的做用就是修正偏差,經過與真實值作對比修正前向傳播的權值和偏置。

人工神經網絡在語音、圖片、視頻、遊戲等各種應用場景展示出了優異的性能,可是存在須要大量的數據進行訓練來提升準確性的問題。

又拍雲內容識別服務

又拍雲內容識別中使用的即是人工神經網絡算法,經過上傳圖片到樣本管理平臺,首先進行人工標註圖片是否爲性感圖、色情圖、廣告圖或者是暴恐圖片,標註完成後將它放到線下處理平臺訓練,得出訓練模型和結果,再將模型發回線上進行智能鑑別。

人工神經網絡算法在測試中表現出了識別迅速、準確率高的特性,目前又拍雲內容識別應用於色情識別的正確率高達 99.7%。

 

總結

本文主要介紹了 4 種應用比較廣泛的的機器學習算法,可是機器學習算法還有其餘不少不一樣的算法,你們感興趣的能夠本身去了解。除此以外,又拍雲圖像識別服務推出永久免費套餐,提供總量 2000 次 / 天的圖片檢測,等效於2000 條 / 天的文本鑑別,或 120 分鐘 / 天的視頻點播與視頻直播檢測。

 

推薦閱讀:

性感與色情有多遠——你不知道的圖片鑑黃那些事兒

深度學習詳解及在圖片鑑別的實踐應用

相關文章
相關標籤/搜索