海量數據相似查找系列2 -- Annoy算法

時間 2021-01-09

原文原文鏈接

上面一章說了下高維稀疏數據如何通過learning to hash的方法來進行相似查找，這種主要想說下另外一種情況，稠密向量如何進行快速相似查找呢？還是以文本爲例吧。之前提到過文本的paragraph2vector的向量表示，以及詞word2vector向量表示形式。一旦文檔變成這種稠密向量形式，那如何從海量文本中快速查找出相似的Top N 文本呢? 所以這裏重點想說下Annoy（ Approxi

>>阅读原文<<