本文是由【菜鳥窩】特邀清華人工智能博士親授,從零開始教你K近鄰分類算法(K-Nearest Neighbor algorithm (short for KNN)),並經過實際案例手把手教會你們進行實操。相關的源碼會發給你們實踐,讓你真正作到學以至用。算法
視頻詳解和實操代碼可勾搭運營小姐姐(微信id:BT474849)免費領取哦。微信
類似性度量: • 距離,距離越小越類似
• 類似係數,類似係數越大越類似。
• 樣品之間的距離和類似係數有着各類不一樣的定義,
而這些定義與變量的類型有着很是密切的關係。機器學習
• 設x =(x1,x2,⋯,xp
)′ 和y =(y1,y2,⋯,yp
)′爲兩個樣本,
則所定義的距離通常應知足以下三個條件:函數
• 歐氏距離
• 曼哈頓距離
• 馬氏距離
•....學習
• 曼哈頓距離(Manhattan distance) 爲兩個點上在標
準座標系上的絕對軸距之總和。
• 具體定義爲:兩個向量𝑥 = (𝑥1, 𝑥2, … , 𝑥𝑛)和y = (𝑦1, 𝑦2, … , 𝑦𝑛) ,那麼它們之間的曼哈頓距離爲人工智能
• x和y之間的馬氏距離爲設計
馬氏距離的直觀理解3d
• 類似係數越大,認爲變量之間的類似性程度就越
高;反之,則越低。
• 變量間類似係數通常應知足的條件rest
• 夾角餘弦
• 皮爾遜相關係數
• …orm
一、夾角餘弦(衡量向量夾角)
• 兩向量間的角度又稱cosine相關係數。兩個n維
向量間的角度距離爲:
二、皮爾遜相關係數
• 皮爾遜相關係數的計算公式以下,結果是一個在
-1與1之間的係數。該係數用來講明兩個樣本間
聯繫的強弱程度。
相關係數的分類
• 0.8-1.0 極強相關
• 0.6-0.8 強相關
• 0.4-0.6 中等程度相關
• 0.2-0.4 弱相關
• 0.0-0.2 極弱相關或無相關
• -1.0-0.0 負相關
1-Nearest Neighbor
• 全部最簡單機器學習分類器中的一種
• 基本思想: label a new point the same as the
closest known point
二、距離指標
不一樣的指標能夠改變決策面對1-NN進行擴展以消除標籤中的噪音
• 對新節點分配與其最近的K個節點中最多出現的標籤
例子:KNN分類器
KNN的優勢和缺點
• +算法設計簡單、易於實現
• - 分類很耗時
• - 分類精度較低
基於knn(sklearn)的鳶尾花卉數據分類 案例視頻詳解勾搭運營(微信id:BT474849)免費領取。
以上具體視頻和實操代碼、項目文檔 可勾搭運營小姐姐(微信id:BT474849)免費領取。