機器學習算法：KNN算法之視頻詳解和項目源碼實操

時間 2019-11-08

標籤機器學習算法 knn 視頻詳解項目源碼简体版

原文原文鏈接

本文是由【菜鳥窩】特邀清華人工智能博士親授，從零開始教你K近鄰分類算法（K-Nearest Neighbor algorithm (short for KNN)），並經過實際案例手把手教會你們進行實操。相關的源碼會發給你們實踐，讓你真正作到學以至用。算法

視頻詳解和實操代碼可勾搭運營小姐姐（微信id：BT474849）免費領取哦。微信

類似性度量

類似性度量： • 距離，距離越小越類似
• 類似係數，類似係數越大越類似。
• 樣品之間的距離和類似係數有着各類不一樣的定義，
而這些定義與變量的類型有着很是密切的關係。機器學習

1、距離

• 設x =(x1,x2,⋯,xp
)′ 和y =(y1,y2,⋯,yp
)′爲兩個樣本，
則所定義的距離通常應知足以下三個條件：函數

非負性：d(x, y)≥0，d(x, y)=0當且僅當x=y；
對稱性：d(x, y)=d(y, x)；
三角不等式：d(x, y)≤d(x, z) + d(z, y)。

常見的距離函數

• 歐氏距離
• 曼哈頓距離
• 馬氏距離
•....學習

一、歐式距離

歐式距離

二、曼哈頓距離

• 曼哈頓距離(Manhattan distance) 爲兩個點上在標
準座標系上的絕對軸距之總和。
• 具體定義爲：兩個向量𝑥 = (𝑥1, 𝑥2, … , 𝑥𝑛)和y = (𝑦1, 𝑦2, … , 𝑦𝑛) ，那麼它們之間的曼哈頓距離爲人工智能

三、馬氏距離

• x和y之間的馬氏距離爲設計

馬氏距離的直觀理解3d

2、類似係數

• 類似係數越大，認爲變量之間的類似性程度就越
高；反之，則越低。
• 變量間類似係數通常應知足的條件rest

常見的相關性係數

• 夾角餘弦
• 皮爾遜相關係數
• …orm

一、夾角餘弦（衡量向量夾角）
• 兩向量間的角度又稱cosine相關係數。兩個n維
向量間的角度距離爲：

其中，分子爲兩個向量的點積，分母爲兩個向量模的積餘弦取值範圍爲[-1,1] • 夾角越小，趨近於0度，餘弦值越接近於1，向量方向越吻合，則越類似。• 夾角爲90度，兩向量正交，餘弦值爲0時。• 夾角180度，兩個向量的方向徹底相反，夾角餘弦取最小值-1。

二、皮爾遜相關係數
• 皮爾遜相關係數的計算公式以下，結果是一個在
-1與1之間的係數。該係數用來講明兩個樣本間
聯繫的強弱程度。

相關係數的分類
• 0.8-1.0 極強相關
• 0.6-0.8 強相關
• 0.4-0.6 中等程度相關
• 0.2-0.4 弱相關
• 0.0-0.2 極弱相關或無相關
• -1.0-0.0 負相關

3、K近鄰分類算法

1-Nearest Neighbor
• 全部最簡單機器學習分類器中的一種
• 基本思想: label a new point the same as the
closest known point

二、距離指標

不一樣的指標能夠改變決策面

對1-NN進行擴展以消除標籤中的噪音
• 對新節點分配與其最近的K個節點中最多出現的標籤

例子：KNN分類器

類似度度量：匹配屬性的數量 (k=2)
•新例子：
• 例1 (great, no, no, normal, no) Yes
最類似： number 2 （1個不匹配，4個匹配）  yes
第二個最類似的例子： number 1 （2個不匹配, 3個匹配）  yes
• 例2 (mediocre, yes, no, normal, no) Yes/No
最類似：number 3 （1個不匹配， 4個匹配）  no
第二個最類似的例子： number 1 （2個不匹配，3個匹配）  yes