人機交互系統（1.1） ——Annoy算法（海量數據查找）

時間 2021-01-20

原文原文鏈接

一、前言一旦文檔變成這種稠密向量形式，那如何從海量文本中快速查找出相似的Top N 文本呢? 這就不得不提到一個海量數據相似查找算法——Annoy算法。二、算法原理 2.1 建立索引 Annoy的目標是建立一個數據結構，使得查詢一個點的最近鄰點的時間複雜度是次線性。Annoy 通過建立一個二叉樹來使得每個點查找時間複雜度是O(log n)。看下面這個圖，隨機選擇兩個點，以這兩個節點爲初始中心

>>阅读原文<<