隨機投影森林-一種近似最近鄰方法（ANN）

時間 2021-01-09

原文原文鏈接

當數據個數比較大的時候，線性搜索尋找KNN的時間開銷太大，而且需要讀取所有的數據在內存中，這是不現實的。因此，實際工程上，使用近似最近鄰也就是ANN問題。其中一種方法是利用隨機投影樹，對所有的數據進行劃分，將每次搜索與計算的點的數目減小到一個可接受的範圍，然後建立多個隨機投影樹構成隨機投影森林，將森林的綜合結果作爲最終的結果。建立一棵隨機投影樹的過程大致如下（以二維空間爲例）：隨機選取一個從