【實體統一】大數據環境下一種基於模式匹配的實體統一方法

大數據環境下一種基於模式匹配的實體統一方法

一、要解決什麼問題?

一、傳統實體統一主要針對小數據集,之前數據量小傳統方法還能夠,可是如今數據量大了,傳統方法解決起來太慢了
二、數據量這麼龐大,如何從大量數據中獲取到值得咱們關注的問題

二、實體統一相關解決思路

(1)、窮盡式的實體統一算法

解釋:
	說白了,就是一一進行比較,看兩個實體是否爲同一個實體
好處和壞處:
	好處就是精度高
	壞處就是這樣比較太慢了

(2)、分塊的實體統一架構

解釋:
	把那種類似的實體,放到一個塊中,他們擁有同一個鍵值。
好處和壞處
	好處就是速度快
	壞處就是精度低

(3)、分佈式架構的實體統一分佈式

解釋:
	在以前的分塊實體統一的基礎之上,進行二次匹配,此次只是塊內進行匹配,經過設定跨度距離來控制匹配的實體數量,而且塊之間是分佈式進行計算,極大提升計算機效率。
好處和壞處
	好處就是速度快(可是和距離設置有關)
	壞處就是精度較低

三、算法模型

分爲3塊數據分塊模塊、模式匹配和抽取模塊、模式合併模塊大數據

(1)、數據分塊模塊

(2)、模式匹配和抽取模塊

(3)、模式合併模塊

​ 通過前面的這個方式篩選,過濾和匹配以後,獲得一個新的集合,這個新的集合是由多個類似塊進行合併和拆分出來的結果集。code

四、用到的算法

(1)、類似度計算

目的:
	作模式之間的類似度計算,主要是爲了後續模式之間的合併作了一個依據,類似度在咱們規定的範圍內就能夠進行合併。

假若有實體:R{halloworde, helloworld}blog

一、先獲得單個實體對應的模式公式,以下操做,進行比較
	halloworde 
	helloworld
	只有2位置和最後兩個位置不同,因此咱們能夠將他們歸類爲一種模式M:h{a,e}llowor{d,l}{e,d}
二、根據每一個實體對應獲得的模式 {R1,R2,R3.....} ——> {M1,M2,M3.....},而後咱們對它的模式進行類似度計算
	即咱們比較 {M1,M2,M3.....}他們的類似度,爲了將他們進一步合併。

(2)、模式快速掃描算法( PRSA)

一、根據第一步算出來的類似度,咱們能夠對他們進行比較。
二、把他們共同的地方標記出來,把不一樣的索引標記出來,記錄下來(相同模式地方,不一樣模式處,不一樣模式處的索引)

(3)、模式抽取算法( PEA)

直接將上一步掃描的結果進行模式抽取,把他們的模式進行合併。

五、總結

實體統一算法的時間效率的要求愈來愈來,咱們要儘可能保證有效性的同時,重點關注如何更迅速地從大數據集中獲得咱們須要的數據實體。
相關文章
相關標籤/搜索