背景
拓展知識圖譜-人物關係模塊,激發用戶興趣點擊,提高流量。
要解決的問題
一、識別人名:ner 命名實體識別。
二、識別兩我的是有關係的;
人名共現來講明兩我的之間有關係;
詞向量計算詞與詞之間的類似度來講明兩我的之間關係。
三、人物關係挖掘。
兩我的名知足某種依存模式,則將兩我的名和關係抽取出來。
用到的相關nlp算子:分詞、詞性標註、命名實體識別(NER)、依存語法分析、語義角色標註
依存句法中咱們所用到的主要關係有:主謂關係(SBV)、動賓關係(VOB)、定中關係(ATT)、並列關係(COO)、介賓關係(POB);
技術方案、基於依存句法的人物關係抽取
核心工程
模式_實例1
兩人名實體同時位於主語,並列關係
例如:1914年,孔祥熙與宋靄齡於日本結婚。
利用哈工大語言云進行句法分析獲得結果以下:
模式_實例2
兩人名實體同時位於主語,修飾關係。特徵詞分別採用角色詞或者人物詞進行不一樣策略的挖掘。
例如:鄧超的妻子孫儷也是著名演員。
使用句法分析獲得結果以下:
模式_實例3
兩人名實體位於賓語,修飾關係
例如:他的妻子以往被認爲是洪秀全的妹妹洪宣嬌。
模式_實例4
兩人名實體分別爲主語和賓語,這種狀況時,
選取謂語動詞做爲特徵詞。
例如「子路師從孔子」
模式_實例5
關係名爲主語、人名2爲賓語,這種狀況時,選取謂語動詞「是」做爲特徵詞。
例如「禹智皓的哥哥是韓國男歌手禹泰雲」
訓練數據
部分訓練樣本post
金城武在經濟公司的安排下師從歌手陳昇
子路師從孔子
禹智皓的哥哥是韓國男歌手禹泰雲
賈巴里·帕克的父親桑尼·帕克是前NBA球員 APP
鄧超的妻子孫儷也是著名演員 APP兩人名實體同時位於主語,修飾關係
1914年,孔祥熙與宋靄齡於日本結婚 兩人名實體同時位於主語,並列關係
他的妻子以往被認爲是洪秀全的妹妹洪宣嬌 兩人名實體位於賓語,修飾關係
韓雪在年代武俠劇《葉問》中飾演葉問的妻子張永成
劉濤共同出演古裝愛情劇《大理公主》飾演貧苦寡婦楊玉姣的女兒楊阿細
優化方案
指代消解。針對那些語句中有代詞狀況,考慮採用指代消解方案進行優化!
提升精準度特殊處理方式:
一、特定關係,必須知足姓氏相同。如:妹妹、弟弟、哥哥、父親、女兒、兒子、爺爺
二、語義提取,太依賴於nlp服務自己,在項目中發現,句法分析中出現部分中文詞沒法提取出來(這種nlp的句法分析服務暫沒提供自定義詞庫功能);
三、ner的識別問題,經過增長分詞,並增長一些自定義的分類方式,提升ner的識別度!
數據評估——衡量方法的優劣
一、大多采用準確率和召回率和F1值來衡量方法的優劣。
二、F1值爲準確率和召回率的加權幾何平均值,具體定義以下。
β是準確率和召回率的相對權重,β= 1,認爲兩個指標重要性是相同的;β>1,召回率權更重要一些;β<1時,準確率更重要一些。
數據評估方式
數據標註:
1) 先跑出一版數據,而後再數據上作正確的標註;
評估方式:
1) 關係挖掘數據評估;
2) 內鏈數據評估;
新聞數據評估:
1) 近似認爲與原語料相同,進行數據類挖掘;
規則提取特徵:
1) 換行提取
2) 單行優化
丘行恭url
推薦