【實體統一】大數據環境下一種基於模式匹配的實體統一方法

時間 2021-03-30

標籤算法架構分佈式大數據 code blog 索引效率基礎 rsa 欄目系統架構简体版

原文原文鏈接

大數據環境下一種基於模式匹配的實體統一方法

一、要解決什麼問題？

一、傳統實體統一主要針對小數據集，之前數據量小傳統方法還能夠，可是如今數據量大了，傳統方法解決起來太慢了
二、數據量這麼龐大，如何從大量數據中獲取到值得咱們關注的問題

二、實體統一相關解決思路

（1）、窮盡式的實體統一算法

解釋：
	說白了，就是一一進行比較，看兩個實體是否爲同一個實體
好處和壞處：
	好處就是精度高
	壞處就是這樣比較太慢了

（2）、分塊的實體統一架構

解釋：
	把那種類似的實體，放到一個塊中，他們擁有同一個鍵值。
好處和壞處
	好處就是速度快
	壞處就是精度低

（3）、分佈式架構的實體統一分佈式

解釋：
	在以前的分塊實體統一的基礎之上，進行二次匹配，此次只是塊內進行匹配，經過設定跨度距離來控制匹配的實體數量，而且塊之間是分佈式進行計算，極大提升計算機效率。
好處和壞處
	好處就是速度快（可是和距離設置有關）
	壞處就是精度較低

三、算法模型

分爲3塊數據分塊模塊、模式匹配和抽取模塊、模式合併模塊大數據

（1）、數據分塊模塊

（2）、模式匹配和抽取模塊

（3）、模式合併模塊

通過前面的這個方式篩選，過濾和匹配以後，獲得一個新的集合，這個新的集合是由多個類似塊進行合併和拆分出來的結果集。code

四、用到的算法

（1）、類似度計算

目的：
	作模式之間的類似度計算，主要是爲了後續模式之間的合併作了一個依據，類似度在咱們規定的範圍內就能夠進行合併。

假若有實體：R{halloworde, helloworld}blog

一、先獲得單個實體對應的模式公式，以下操做，進行比較
	halloworde 
	helloworld
	只有2位置和最後兩個位置不同，因此咱們能夠將他們歸類爲一種模式M：h{a,e}llowor{d,l}{e,d}
二、根據每一個實體對應獲得的模式 {R1，R2，R3.....} ——> {M1，M2，M3.....},而後咱們對它的模式進行類似度計算
	即咱們比較 {M1，M2，M3.....}他們的類似度，爲了將他們進一步合併。

（2）、模式快速掃描算法( PRSA)

一、根據第一步算出來的類似度，咱們能夠對他們進行比較。
二、把他們共同的地方標記出來，把不一樣的索引標記出來，記錄下來（相同模式地方，不一樣模式處，不一樣模式處的索引）

（3）、模式抽取算法( PEA)

直接將上一步掃描的結果進行模式抽取，把他們的模式進行合併。

五、總結

實體統一算法的時間效率的要求愈來愈來，咱們要儘可能保證有效性的同時，重點關注如何更迅速地從大數據集中獲得咱們須要的數據實體。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。