海量數據相似查找系列1 -- Minhashing & LSH & Simhash 技術彙總

時間 2021-01-13

原文原文鏈接

最近把海量數據如何進行相似查找技術進行個大體彙總，包括高維稀疏數據和稠密數據。這一節重點針對高維稀疏數據情況，說如何通過哈希技術進行快速進行相似查找。試想個案例，就拿推薦系統中item-user矩陣說事。如果你有item數量是百萬級別，user是千萬級別，這個矩陣是十分稀疏的。你如何計算每一個item的Top N相似item呢？同樣海量文本場景，文本集合可以看成doc-word 稀疏矩陣，

>>阅读原文<<