人物關係挖掘方案設計

 

 
背景
 
拓展知識圖譜-人物關係模塊,激發用戶興趣點擊,提高流量。
 
 
要解決的問題
 
一、識別人名:ner 命名實體識別。
二、識別兩我的是有關係的;
  人名共現來講明兩我的之間有關係;
  詞向量計算詞與詞之間的類似度來講明兩我的之間關係。
三、人物關係挖掘。
  兩我的名知足某種依存模式,則將兩我的名和關係抽取出來。
  用到的相關nlp算子:分詞、詞性標註、命名實體識別(NER)、依存語法分析、語義角色標註
  依存句法中咱們所用到的主要關係有:主謂關係(SBV)、動賓關係(VOB)、定中關係(ATT)、並列關係(COO)、介賓關係(POB);
 
技術方案、基於依存句法的人物關係抽取
 
 
 
 
 
 
核心工程
 
 
模式_實例1
 
兩人名實體同時位於主語,並列關係
例如:1914年,孔祥熙與宋靄齡於日本結婚。
 
利用哈工大語言云進行句法分析獲得結果以下:
 
 
 
模式_實例2
 
  兩人名實體同時位於主語,修飾關係。特徵詞分別採用角色詞或者人物詞進行不一樣策略的挖掘。
  例如:鄧超的妻子孫儷也是著名演員。
 
  使用句法分析獲得結果以下:
 
 
 
 
 
模式_實例3
 
  兩人名實體位於賓語,修飾關係
  例如:他的妻子以往被認爲是洪秀全的妹妹洪宣嬌。
 

 

 
 
模式_實例4
 
  兩人名實體分別爲主語和賓語,這種狀況時, 選取謂語動詞做爲特徵詞
 
  例如「子路師從孔子」
 
 
 
 
模式_實例5
 
  關係名爲主語、人名2爲賓語,這種狀況時,選取謂語動詞「是」做爲特徵詞。
  例如「禹智皓的哥哥是韓國男歌手禹泰雲」
 
 
訓練數據
 

部分訓練樣本post

金城武在經濟公司的安排下師從歌手陳昇
子路師從孔子
禹智皓的哥哥是韓國男歌手禹泰雲
賈巴里·帕克的父親桑尼·帕克是前NBA球員   APP
鄧超的妻子孫儷也是著名演員  APP兩人名實體同時位於主語,修飾關係
1914年,孔祥熙與宋靄齡於日本結婚    兩人名實體同時位於主語,並列關係
他的妻子以往被認爲是洪秀全的妹妹洪宣嬌  兩人名實體位於賓語,修飾關係
韓雪在年代武俠劇《葉問》中飾演葉問的妻子張永成
劉濤共同出演古裝愛情劇《大理公主》飾演貧苦寡婦楊玉姣的女兒楊阿細

  

 

 

 

優化方案
 
  指代消解。針對那些語句中有代詞狀況,考慮採用指代消解方案進行優化!
    提升精準度特殊處理方式:
    一、特定關係,必須知足姓氏相同。如:妹妹、弟弟、哥哥、父親、女兒、兒子、爺爺
    二、語義提取,太依賴於nlp服務自己,在項目中發現,句法分析中出現部分中文詞沒法提取出來(這種nlp的句法分析服務暫沒提供自定義詞庫功能);
    三、ner的識別問題,經過增長分詞,並增長一些自定義的分類方式,提升ner的識別度!
 
數據評估——衡量方法的優劣
 
一、大多采用準確率和召回率和F1值來衡量方法的優劣。
二、F1值爲準確率和召回率的加權幾何平均值,具體定義以下。
  β是準確率和召回率的相對權重,β= 1,認爲兩個指標重要性是相同的;β>1,召回率權更重要一些;β<1時,準確率更重要一些。
 

 

 
數據評估方式
 
  數據標註:
      1) 先跑出一版數據,而後再數據上作正確的標註;
  評估方式:
      1) 關係挖掘數據評估;
      2) 內鏈數據評估;
   新聞數據評估:
      1) 近似認爲與原語料相同,進行數據類挖掘;
 
 
規則提取特徵:
1) 換行提取
   丘和

 

 2) 單行優化

丘行恭url

 

 

 
推薦
 
 
 
相關文章
相關標籤/搜索