在前一篇文章 《海量數據類似度計算之simhash和海明距離》 介紹了simhash的原理,你們應該感受到了算法的魅力。可是隨着業務的增加 simhash的數據也會暴增,若是一天100w,10天就1000w了。咱們若是插入一條數據就要去比較1000w次的simhash,計算量仍是蠻大,普通PC 比較1000w次海明距離須要 300ms ,和5000w數據比較須要1.8 s。看起來類似度計算不是很慢,還在秒級別。給你們算一筆帳就知道了:html
隨着業務增加須要一個小時處理100w次,一個小時爲3600 *1000 = 360w毫秒,計算一下一次類似度比較最多隻能消耗 360w / 100w = 3.6毫秒。300ms慢嗎,慢!1.8S慢嗎,太慢了!不少狀況你們想的就是升級、增長機器,但有些時候光是增長機器已經解決不了問題了,就算增長機器也不是短期可以解決的,須要考慮分佈式、客戶預算、問題解決的容忍時間?頭大時候要相信人類的智慧是無窮的,泡杯茶,聽下輕音樂:)暢想下宇宙有多大,宇宙外面還有什麼東西,程序員有什麼問題可以難倒呢?java
加上客戶還提出的幾個,彙總一下技術問題:程序員
目前咱們估算一下存儲空間的大小,就以JAVA 來講,存儲一個simhash 須要一個原生態 lang 類型是64位 = 8 byte,若是是 Object 對象還須要額外的 8 byte,因此咱們儘可能節約空間使用原生態的lang類型。假設增加到最大的5000w數據, 5000w * 8byte = 400000000byte = 400000000/( 1024 * 1024) = 382 Mb,因此按照這個大小普通PC服務器就能夠支持,這樣第三個問題就解決了。算法
比較5000w次怎麼減小時間呢?其實這也是一個查找的過程,咱們想一想之前學過的查找算法: 順序查找、二分查找、二叉排序樹查找、索引查找、哈希查找。不過咱們這個不是比較數字是否相同,而是比較海明距離,之前的算法並不怎麼通用,不過解決問題的過程都是通用的。仍是和之前同樣,不使用數學公式,使用程序猿你們都理解的方式。還記得JAVA裏有個HashMap嗎?咱們要查找一個key值時,經過傳入一個key就能夠很快的返回一個value,這個號稱查找速度最快的數據結構是如何實現的呢?看下hashmap的內部結構:服務器
若是咱們須要獲得key對應的value,須要通過這些計算,傳入key,計算key的hashcode,獲得7的位置;發現7位置對應的value還有好幾個,就經過鏈表查找,直到找到v72。其實經過這麼分析,若是咱們的hashcode設置的不夠好,hashmap的效率也不見得高。借鑑這個算法,來設計咱們的simhash查找。經過順序查找確定是不行的,可否像hashmap同樣先經過鍵值對的方式減小順序比較的次數。看下圖:數據結構
存儲:
一、將一個64位的simhash code拆分紅4個16位的二進制碼。(圖上紅色的16位)
二、分別拿着4個16位二進制碼查找當前對應位置上是否有元素。(放大後的16位)
三、對應位置沒有元素,直接追加到鏈表上;對應位置有則直接追加到鏈表尾端。(圖上的 S1 — SN)多線程
查找:
一、將須要比較的simhash code拆分紅4個16位的二進制碼。
二、分別拿着4個16位二進制碼每個去查找simhash集合對應位置上是否有元素。
二、若是有元素,則把鏈表拿出來順序查找比較,直到simhash小於必定大小的值,整個過程完成。分佈式
原理:
借鑑hashmap算法找出能夠hash的key值,由於咱們使用的simhash是局部敏感哈希,這個算法的特色是隻要類似的字符串只有個別的位數是有差異變化。那這樣咱們能夠推斷兩個類似的文本,至少有16位的simhash是同樣的。具體選擇16位、8位、4位,你們根據本身的數據測試選擇,雖然比較的位數越小越精準,可是空間會變大。分爲4個16位段的存儲空間是單獨simhash存儲空間的4倍。以前算出5000w數據是 382 Mb,擴大4倍1.5G左右,還能夠接受:)grunt
經過這樣計算,咱們的simhash查找過程所有降到了1毫秒如下。就加了一個hash效果這麼厲害?咱們能夠算一下,原來是5000w次順序比較,如今是少了2的16次方比較,前面16位變成了hash查找。後面的順序比較的個數是多少? 2^16 = 65536, 5000w/65536 = 763 次。。。。實際最後鏈表比較的數據也才 763次!因此效率大大提升!測試
到目前第一點降到3.6毫秒、支持5000w數據類似度比較作完了。還有第二點同一時刻發出的文本若是重複也只能保留一條和短文本相識度比較怎麼解決。其實上面的問題解決了,這兩個就不是什麼問題了。
參考:
個人數學之美系列二 —— simhash與重複信息識別
原創文章,轉載請註明: 轉載自LANCEYAN.COM
本文連接地址: 海量數據類似度計算之simhash短文本查找