海量數據相似度計算之simhash短文本查找

在前一篇文章 《海量數據相似度計算之simhash和海明距離》 介紹了simhash的原理,大家應該感覺到了算法的魅力。但是隨着業務的增長 simhash的數據也會暴增,如果一天100w,10天就1000w了。我們如果插入一條數據就要去比較1000w次的simhash,計算量還是蠻大,普通PC 比較1000w次海明距離需要 300ms ,和5000w數據比較需要1.8 s。看起來相似度計算不是很慢
相關文章
相關標籤/搜索