Author name disambiguation using a graph model with node splitting and merging based on bibliographi

Author name disambiguation using a graph model with node splitting and merging based on bibliographic information

基於文獻信息進行節點拆分和合並的圖模型消歧方法(GFAD)
 
 
這是一篇比較早的文章,將人名消歧過程做爲一個系統,主要想學習它對消歧過程當中的各個階段的劃分
GFAD 是一個面向圖的框架,對於元信息缺失,錯誤信息的存在具備較好的魯棒性,且不依賴web 環境,也不須要羣體數量信息,不須要估計特定的參數或閾值。其中,頂點表示做者,邊表示合做關係。
同名問題:分割多個不重疊的環中的共同頂點
異名問題:合併具備不一樣名的頂點
同時:可以處理異常問題

1. 概述

1. 基於圖的做者姓名消歧方法
2. 使用合做關係構建圖模型
3. 基於節點分割和合並解決模糊類別
 
已有研究:
1. 只處理同名問題
2. 依賴於郵件,網頁等輔助信息

2. 創新點

涵蓋了同名和異名問題
目的:構建對特定域(或數字圖書館)不敏感的通用框架,避免數據缺失和環境錯誤的影響
 
只依賴 title 和 co-author
1. 以圖表爲導向的人名消歧方法,從文獻信息分析做者間的關係構建圖模型
2. 經過連接合做者推斷做者的社交環(過去和如今的學術關係)
3. 利用頂點分割或頂點合併
 
與以往研究相比:
1. 只須要合著者信息和 title(必要屬性)
2. 不要求其餘額外信息或估計值
3. 爲同名和異名問題提供一個全面的消除歧義的解決方案

3. 總體框架

1. 利用文獻信息分析做者關係構建圖模型
2. 拆分存在多個合做網絡中的頂點解決同名問題
3. 合併同做者不一樣名字的節點解決異名問題
 

3.1. Graph Model Constructor

圖模型建設
合著者是解決做者歧義的最有影響力的因素,將合著者信息構建成一個圖,合著者爲雙向關係
 

3.2. Namesake Resolver

同名的解析器檢測並解決同名問題
假設同一我的同一時期不多在同一個機構工做,社交羣體也不一樣
GFAD將從同一個頂點發出的每一個非重疊循環視爲不一樣社交環,循環檢測器查找途中具備多個社交環的頂點,名稱分割器拆分與多個社交環相關聯的頂點

3.2.1. Cycle Detector

算法過程:
1. 若是是別的環的子環,則移除該環
2. 檢測併合並在正在檢測的環中共享同一頂點的環
 
Splitting vertices
沿着最長的非重疊環分割包含

3.2.2. Namesake Splitter

GFAD 是從開始到結束的頂點間沒有重複頂點和邊的簡單環,須要爲每一個社交圈肯定合適的邊界。一般,社交圈越寬,將不一樣的人分到同一我的的可能性越大。
若是BDC 包含相關領域的引用記錄,或根據領域構建圖,較大的社交圈就不容易出現以上錯誤
GFAD 將最大的環做爲該做者的社交圈,假定,同一個頂點出如今多個最大的社交圈時可能包含同名不一樣人的做者,所以,咱們須要檢測每一個頂點的最大非重疊環,而後根據這些週期進行頂點分割

3.3. Heteronymous Name Resolver

異名解析器
1. 查找具備類似做者名稱,而且相同做者檢測器識別表示爲同一我的的頂點
2. 異名合併器合併該頂點
 
同一個做者使用不一樣名字
GFAD 判斷具備類似名字的頂點組,若是該組全部成員至少共享一個公共頂點,則將其視爲同一我的

3.3.1. similar name searcher

1. GFAD 使用最長公共子序列( LCS ) 方法檢測
2. 使用空格和標點符號做爲分隔符標記做者名字,並使用LCS 測量類似度
3. 若是二者類似度 > 0.8 則視爲類似

 

3.3.2. same author detector

兩個類似名稱的頂點直接或間接的鏈接到圖中的公共頂點,則認爲二者爲同一我的

3.3.3. heteronymous name merger

一旦肯定具備類似名稱的做者是同一我的,則合併

3.4. Outlier Remover

孤立點:
缺乏消歧所須要的元信息
如:在使用合著關係的系統中,只有一個做者的文章就是孤立點
對於使用做者所屬組織的系統中,缺乏做者所屬信息的文章就是孤立點
GFAD 將異常值根據表明性的關鍵字的類似性度量,將相應頂點與圖模型中最類似的頂點合併
 
類似度量:
GFAD 將文章中的詞彙構成一個特徵向量,將其做爲關鍵詞,使用餘弦類似度,測量異常值和其類似頂點間的類似度
過程:
1. 從 GM 中尋找沒有合著信息的頂點
2. 將其中名字類似的頂點標爲孤立點,而且選擇出有最高類似度的頂點
3. 將孤立點從 GM 中移除,與有最高類似度的節點合併

4. Experiment

分別對比有或沒有異常點移除的步驟的效果
 
孤立點去除將離羣點合併成最類似的羣,當將單個記錄羣誤解爲離羣點時,GFAD 性能下降
如何合理的去除離羣點?
  • 對比使用了哪些屬性,信息缺失是否嚴重
  • 如何定義類似性閾值
 
 
GFAD-AD: 僅使用共同做者
GFAD-OR:孤立點移除
HHC:使用引用特徵的非監督人名消歧
HHC-ALL: 使用全部特徵屬性(合著者,title,地點)
HHC-CO:僅使用合著者特徵
  • 使用全部特徵屬性(合著者,title,地點)
  • 在 arnet 上比 GFAD 性能好
  • 須要預先定義標題和地址的類似度閾值
  • 選擇一個惟一的不變的閾值不太現實
GFAD-AD
  • 僅使用共同做者
當僅使用共同做者屬性時,GFAD-AD 在兩集合中都優於 HHC-CO

5. GFAD 侷限性

不能處理:
1. 兩個同名做者有相同名字但不一樣人的合做者
2. 雖然是同一我的但沒有共同合做者
3. 當由單一做者所著時,沒有合著者信息
4. 做者我的資料變動(動態變化)
相關文章
相關標籤/搜索