一、傳統實體統一主要針對小數據集,之前數據量小傳統方法還能夠,可是如今數據量大了,傳統方法解決起來太慢了 二、數據量這麼龐大,如何從大量數據中獲取到值得咱們關注的問題
(1)、窮盡式的實體統一算法
解釋: 說白了,就是一一進行比較,看兩個實體是否爲同一個實體 好處和壞處: 好處就是精度高 壞處就是這樣比較太慢了
(2)、分塊的實體統一架構
解釋: 把那種類似的實體,放到一個塊中,他們擁有同一個鍵值。 好處和壞處 好處就是速度快 壞處就是精度低
(3)、分佈式架構的實體統一分佈式
解釋: 在以前的分塊實體統一的基礎之上,進行二次匹配,此次只是塊內進行匹配,經過設定跨度距離來控制匹配的實體數量,而且塊之間是分佈式進行計算,極大提升計算機效率。 好處和壞處 好處就是速度快(可是和距離設置有關) 壞處就是精度較低
分爲3塊數據分塊模塊、模式匹配和抽取模塊、模式合併模塊大數據
通過前面的這個方式篩選,過濾和匹配以後,獲得一個新的集合,這個新的集合是由多個類似塊進行合併和拆分出來的結果集。code
目的: 作模式之間的類似度計算,主要是爲了後續模式之間的合併作了一個依據,類似度在咱們規定的範圍內就能夠進行合併。
假若有實體:R{halloworde, helloworld}blog
一、先獲得單個實體對應的模式公式,以下操做,進行比較 halloworde helloworld 只有2位置和最後兩個位置不同,因此咱們能夠將他們歸類爲一種模式M:h{a,e}llowor{d,l}{e,d} 二、根據每一個實體對應獲得的模式 {R1,R2,R3.....} ——> {M1,M2,M3.....},而後咱們對它的模式進行類似度計算 即咱們比較 {M1,M2,M3.....}他們的類似度,爲了將他們進一步合併。
一、根據第一步算出來的類似度,咱們能夠對他們進行比較。 二、把他們共同的地方標記出來,把不一樣的索引標記出來,記錄下來(相同模式地方,不一樣模式處,不一樣模式處的索引)
直接將上一步掃描的結果進行模式抽取,把他們的模式進行合併。
實體統一算法的時間效率的要求愈來愈來,咱們要儘可能保證有效性的同時,重點關注如何更迅速地從大數據集中獲得咱們須要的數據實體。