【機器學習課程-華盛頓大學】:4 聚類和檢索 4.2 nn、knn、kd-tree和檢索

一、介紹最近鄰搜索算法 1、1NN僞代碼   2、knn僞代碼   3、文檔表示:word counts   4、文檔表示:tf*idf   5、距離矩陣 最簡單的比如: 加權重的特徵:有些特徵比較重要,則權重較大。   6、相似度計算 (1)矩陣乘法 爲了避免長短文章問題,進行歸一化。   (2)cosine   二、kd-tree 矩陣剪枝,對中小型維度的數據庫比較有效。高維數據難處理。  
相關文章
相關標籤/搜索