海量數據相似查找系列1 -- Minhashing & LSH & Simhash 技術彙總

最近把海量數據如何進行相似查找技術進行個大體彙總,包括高維稀疏數據和稠密數據。 這一節重點針對高維稀疏數據情況,說如何通過哈希技術進行快速進行相似查找。 試想個案例,就拿推薦系統中item-user矩陣說事。如果你有item數量是百萬級別,user是千萬級別,這個矩陣是十分稀疏的。你如何計算每一個item的Top N相似item呢?  同樣海量文本場景,文本集合可以看成doc-word 稀疏矩陣,
相關文章
相關標籤/搜索