經過 採集系統 咱們採集了大量文本數據,可是文本中有不少重複數據影響咱們對於結果的分析。分析前咱們須要對這些數據去除重複,如何選擇和設計文本的去重算法?常見的有餘弦夾角算法、歐式距離、Jaccard類似度、最長公共子串、編輯距離等。這些算法對於待比較的文本數據很少時還比較好用,若是咱們的爬蟲天天採集的數據以千萬計算,咱們如何對於這些海量千萬級的數據進行高效的合併去重。最簡單的作法是拿着待比較的文本和數據庫中全部的文本比較一遍若是是重複的數據就標示爲重複。看起來很簡單,咱們來作個測試,就拿最簡單的兩個數據使用Apache提供的 Levenshtein for 循環100w次計算這兩個數據的類似度。代碼結果以下: html
1
2
3
4
5
6
7
8
9
10
11
12
|
String s1 ="你媽媽喊你回家吃飯哦,回家羅回家羅";
String s2 ="你媽媽叫你回家吃飯啦,回家羅回家羅";
longt1 = System.currentTimeMillis();
for(inti = 0; i < 1000000; i++) {
intdis = StringUtils .getLevenshteinDistance(s1, s2);
}
longt2 = System.currentTimeMillis();
System. out .println(" 耗費時間: "+ (t2 - t1) +" ms ");
|
耗費時間: 4266 ms 算法
大跌眼鏡,竟然計算耗費4秒。假設咱們一天須要比較100w次,光是比較100w次的數據是否重複就須要4s,就算4s一個文檔,單線程一分鐘才處理15個文檔,一個小時才900個,一天也才21600個文檔,這個數字和一天100w相差甚遠,須要多少機器和資源才能解決。 數據庫
爲此咱們須要一種應對於海量數據場景的去重方案,通過研究發現有種叫 local sensitive hash 局部敏感哈希 的東西,聽說這玩意能夠把文檔降維到hash數字,數字兩兩計算運算量要小不少。查找不少文檔後看到google對於網頁去重使用的是simhash,他們天天須要處理的文檔在億級別,大大超過了咱們如今文檔的水平。既然老大哥也有相似的應用,咱們也趕忙嘗試下。simhash是由 Charikar 在2002年提出來的,參考 《Similarity estimation techniques from rounding algorithms》 。 介紹下這個算法主要原理,爲了便於理解儘可能不使用數學公式,分爲這幾步: 數據結構
整個過程圖爲: 函數
你們可能會有疑問,通過這麼多步驟搞這麼麻煩,不就是爲了獲得個 0 1 字符串嗎?我直接把這個文本做爲字符串輸入,用hash函數生成 0 1 值更簡單。其實不是這樣的,傳統hash函數解決的是生成惟一值,好比 md五、hashmap等。md5是用於生成惟一簽名串,只要稍微多加一個字符md5的兩個數字看起來相差甚遠;hashmap也是用於鍵值對查找,便於快速插入和查找的數據結構。不過咱們主要解決的是文本類似度計算,要比較的是兩個文章是否相識,固然咱們降維生成了hashcode也是用於這個目的。看到這裏估計你們就明白了,咱們使用的simhash就算把文章中的字符串變成 01 串也仍是能夠用於計算類似度的,而傳統的hashcode卻不行。咱們能夠來作個測試,兩個相差只有一個字符的文本串,「你媽媽喊你回家吃飯哦,回家羅回家羅」 和 「你媽媽叫你回家吃飯啦,回家羅回家羅」。 性能
經過simhash計算結果爲: 測試
1000010010101101111111100000101011010001001111100001001011001011 google
1000010010101101011111100000101011010001001111100001101010001011 spa
經過 hashcode計算爲: 線程
1111111111111111111111111111111110001000001100110100111011011110
1010010001111111110010110011101
你們能夠看得出來,類似的文本只有部分 01 串變化了,而普通的hashcode卻不能作到,這個就是局部敏感哈希的魅力。目前Broder提出的shingling算法和Charikar的simhash算法應該算是業界公認比較好的算法。在simhash的發明人Charikar的論文中並無給出具體的simhash算法和證實,「量子圖靈」得出的證實simhash是由隨機超平面hash算法演變而來的。
如今經過這樣的轉換,咱們把庫裏的文本都轉換爲simhash 代碼,並轉換爲long類型存儲,空間大大減小。如今咱們雖然解決了空間,可是如何計算兩個simhash的類似度呢?難道是比較兩個simhash的01有多少個不一樣嗎?對的,其實也就是這樣,咱們經過海明距離(Hamming distance)就能夠計算出兩個simhash到底類似不類似。兩個simhash對應二進制(01串)取值不一樣的數量稱爲這兩個simhash的海明距離。舉例以下: 10101 和 00110 從第一位開始依次有第一位、第4、第五位不一樣,則海明距離爲3。對於二進制字符串的a和b,海明距離爲等於在a XOR b運算結果中1的個數(廣泛算法)。
爲了高效比較,咱們預先加載了庫裏存在文本並轉換爲simhash code 存儲在內存空間。來一條文本先轉換爲 simhash code,而後和內存裏的simhash code 進行比較,測試100w次計算在100ms。速度大大提高。
未完待續:
一、目前速度提高了可是數據是不斷增量的,若是將來數據發展到一個小時100w,按如今一次100ms,一個線程處理一秒鐘 10次,一分鐘 60 * 10 次,一個小時 60*10 *60 次 = 36000次,一天 60*10*60*24 = 864000次。 咱們目標是一天100w次,經過增長兩個線程就能夠完成。可是若是要一個小時100w次呢?則須要增長30個線程和相應的硬件資源保證速度可以達到,這樣成本也上去了。可否有更好的辦法,提升咱們比較的效率?
二、經過大量測試,simhash用於比較大文本,好比500字以上效果都還蠻好,距離小於3的基本都是類似,誤判率也比較低。可是若是咱們處理的是微博信息,最多也就140個字,使用simhash的效果並不那麼理想。看以下圖,在距離爲3時是一個比較折中的點,在距離爲10時效果已經不好了,不過咱們測試短文本不少看起來類似的距離確實爲10。若是使用距離爲3,短文本大量重複信息不會被過濾,若是使用距離爲10,長文本的錯誤率也很是高,如何解決?