機器學習算法:KNN算法之視頻詳解和項目源碼實操

本文是由【菜鳥窩】特邀清華人工智能博士親授,從零開始教你K近鄰分類算法(K-Nearest Neighbor algorithm (short for KNN)),並經過實際案例手把手教會你們進行實操。相關的源碼會發給你們實踐,讓你真正作到學以至用。算法

視頻詳解和實操代碼可勾搭運營小姐姐(微信id:BT474849)免費領取哦。微信

類似性度量

類似性度量: • 距離,距離越小越類似
• 類似係數,類似係數越大越類似。
• 樣品之間的距離和類似係數有着各類不一樣的定義,
而這些定義與變量的類型有着很是密切的關係。機器學習

1、距離

• 設x =(x1,x2,⋯,xp
)′ 和y =(y1,y2,⋯,yp
)′爲兩個樣本,
則所定義的距離通常應知足以下三個條件:函數

  1. 非負性:d(x, y)≥0,d(x, y)=0當且僅當x=y;
  2. 對稱性:d(x, y)=d(y, x);
  3. 三角不等式:d(x, y)≤d(x, z) + d(z, y)。
常見的距離函數

• 歐氏距離
• 曼哈頓距離
• 馬氏距離
•....學習

一、歐式距離

歐式距離
二、曼哈頓距離

• 曼哈頓距離(Manhattan distance) 爲兩個點上在標
準座標系上的絕對軸距之總和。
• 具體定義爲:兩個向量𝑥 = (𝑥1, 𝑥2, … , 𝑥𝑛)和y = (𝑦1, 𝑦2, … , 𝑦𝑛) ,那麼它們之間的曼哈頓距離爲人工智能


三、馬氏距離

• x和y之間的馬氏距離爲設計


馬氏距離的直觀理解3d


2、類似係數

• 類似係數越大,認爲變量之間的類似性程度就越
高;反之,則越低。
• 變量間類似係數通常應知足的條件rest


常見的相關性係數

• 夾角餘弦
• 皮爾遜相關係數
• …orm

一、夾角餘弦(衡量向量夾角)
• 兩向量間的角度又稱cosine相關係數。兩個n維
向量間的角度距離爲:


其中,分子爲兩個向量的點積,分母爲兩個向量模的積餘弦取值範圍爲[-1,1] • 夾角越小,趨近於0度,餘弦值越接近於1,向量方向越吻合,則越類似。• 夾角爲90度,兩向量正交,餘弦值爲0時。• 夾角180度,兩個向量的方向徹底相反,夾角餘弦取最小值-1。

二、皮爾遜相關係數
• 皮爾遜相關係數的計算公式以下,結果是一個在
-1與1之間的係數。該係數用來講明兩個樣本間
聯繫的強弱程度。

相關係數的分類
• 0.8-1.0 極強相關
• 0.6-0.8 強相關
• 0.4-0.6 中等程度相關
• 0.2-0.4 弱相關
• 0.0-0.2 極弱相關或無相關
• -1.0-0.0 負相關

3、K近鄰分類算法

1-Nearest Neighbor
• 全部最簡單機器學習分類器中的一種
• 基本思想: label a new point the same as the
closest known point

二、距離指標

不一樣的指標能夠改變決策面

對1-NN進行擴展以消除標籤中的噪音
• 對新節點分配與其最近的K個節點中最多出現的標籤


例子:KNN分類器


類似度度量:匹配屬性的數量 (k=2)
•新例子:
• 例1 (great, no, no, normal, no) Yes
最類似: number 2 (1個不匹配,4個匹配)  yes
第二個最類似的例子: number 1 (2個不匹配, 3個匹配)  yes
• 例2 (mediocre, yes, no, normal, no) Yes/No
最類似:number 3 (1個不匹配, 4個匹配)  no
第二個最類似的例子: number 1 (2個不匹配,3個匹配)  yes

KNN的優勢和缺點
• +算法設計簡單、易於實現
• - 分類很耗時
• - 分類精度較低

實操代碼詳解(視頻截圖)

基於knn(sklearn)的鳶尾花卉數據分類 案例視頻詳解勾搭運營(微信id:BT474849)免費領取。



以上具體視頻和實操代碼、項目文檔 可勾搭運營小姐姐(微信id:BT474849)免費領取。

相關文章
相關標籤/搜索