事理圖譜的構建

本內容轉自:
版權聲明:本文爲CSDN博主「liuhuanyong_iscas」的原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處連接及本聲明。
原文連接:https://blog.csdn.net/lhy2014/article/details/85247268算法

 

目前關於事理圖譜的構建方式上,主要包括領域專家手動構建以及基於海量文本自動化獲取兩種方法。前者準確率高但構建成本較大,且規模難以快速增加;後者所見即所得,構建成本較低,規模可快速擴充,可以迅速挖掘出海量邏輯,但缺點是精確度受多方面因素影響,準確率較前者要低。事實上,目前事理邏輯普遍存在於海量文本當中,當咱們打開百度或者谷歌搜索引擎,輸入「致使」或者「lead to」這一詞時,會返回多個包含因果事理的結果,以下圖所示。此外,問答社區等資源也爲基於海量文本自動化獲取事理邏輯提供了可能
數據庫

 

 

事理邏輯的挖掘,能夠分紅基於顯式因果邏輯的挖掘和隱式因果邏輯的邏輯兩種。前者經過人工設定因果模式能夠獲取大量的因果事件對,例如對於句子「受范冰冰陰陽合同事件牽連,唐德影視、華誼兄弟開盤大跌」,能夠結構化出<范冰冰陰陽合同事件,致使,唐德影視、華誼兄弟開盤大跌>這樣的因果事件對。經過對緣由事件和結果事件進行進一步解析,咱們能夠獲得緣由事件的關聯主體是人物,即影視明星「范冰冰」,事件的動做是「陰陽合同」,結果事件中關聯的主體是兩家傳媒上市公司,華德影視和華誼兄弟,事件的動做是股價大跌。結合上下文,可進一步明確事件發生的時間信息,爲2018年6月4日。對這樣的事件對,可進一步抽象泛化成一種邏輯規則,即影視明星「陰陽合同->傳媒公司股價下跌」這樣一條因果模式鏈。更進一步,經過對動做自己的情感極性進行泛化,咱們能夠發現,「陰陽合同」屬於負面消息,股價下跌這一事件屬於負面影響,所以,能夠進一步泛化成「明星負面消息->公司利空」這條更爲抽象的因果模式鏈。這樣,經過大量的顯示模式對事理邏輯進行結構化,對不一樣來源的事理知識進行融合並層層抽象,能夠獲得大規模不一樣層級的事理邏輯,藉助知識圖譜首尾相接的方式,咱們對構建好的一條條事理邏輯進行連接,就造成了一個圖譜形式的事理邏輯脈絡,即事理圖譜。

網絡

說到事理圖譜,就不得不說事件表示。事件表示是事理圖譜中的重要問題之一,目前學界和業界正在尋求一種儘量靈活、簡單的方式去表示事件。在事件表示上,有上海大學劉宗田老師團隊提出的「事件六要素本體模型」[5],即將事件建模成e = { A,O,T,V,P,L}的表示形式, 其中: A 爲動做要素; O 爲對象要素; T 爲時間要素; V 爲環境要素; P 爲斷言要素; L 爲語言表現。 而這種表示方式沒法直接用於圖譜節點表示,更可能成爲一種事件描述信息隱藏於圖譜事件節點背後。咱們在實際的工做當中,嘗試了幾種事件表示方式,如含義、舉例、優缺點
工具

 

 事理圖譜中事件節點的表示形式大數據

從漢語句法學和語義學的角度出發,全面梳理了上千條事件邏輯關係顯示錶達模式,構建起了兩千萬領域新聞資訊庫,運用事件抽取、事件對齊、事件融合以及泛化技術,造成了規模約400萬的事理圖譜,並實現了事理圖譜的動態更新。搜索引擎

 

下圖分別是部分「出行」和「烹飪」兩個順承子圖譜。從中咱們看到,圍繞着「去麗江」這一事件所產生的順承邏輯,如「拿#身份證」->「去#售票口」-> 「去#買票」->「趕上#旺季」->「去#麗江」這一順承邏輯,「去#麗江」-> 「預訂#客棧」->「看過#攻略」->「結合#眼光」->「沒有#價值」->「擦亮#眼睛」這一順承邏輯結構。「去#莊園」->「去#竹林」->「挖#冬筍」->「切成#塊」->「配上#鯿魚」-> 「勻以#薯粉」->「成#棒狀」->「入#油鍋」->「炸成#小塊」這一順承事件鍊形象地描述了「烹飪」這一事件的時序關係。這種順承事理邏輯在揭示敘述性與步驟型事務的刻畫上是一種很好的形式。
.net

 

 

如下分別是以「銀行降準」和「智利地震」事件爲核心所關聯的因果事理邏輯鏈,今年10月07日,央行宣佈銀行降準,這勢必會形成多骨諾米牌效應,如圖11中所示:
銀行降準會致使保險股高開、銀行股持續走強,銀行股持續走強前後帶來銀行板塊集3d

 

 

 

 

 

 

5、事理圖譜和知識圖譜的融合
如上面所介紹到的事理圖譜中是以事件爲單位一種邏輯鏈路,而實體識事件的一個重組成部分,經過實體識別和實體連接技術能夠將事件中的實體連接到相應的實體知識庫當中。如圖12所示:「范冰冰陰陽合同違法」這一事件當中,人物「范冰冰」能夠連接到包含「范冰冰」這我的物的人物關係圖譜,如搜狗人物關係圖譜,致使光線傳媒、華誼嘉信、華誼兄弟等傳媒公司的股價下跌這一事件中,光線傳媒、華誼嘉信以及華誼兄弟這些公司類實體,實體能夠進一步鏈接到以公司爲實體的公司金融知識圖譜,該圖譜中包含了公司的主營產品、所屬板塊、競爭對手等各方面的信息對象



圖12顯示了事理圖譜和知識圖譜融合後的狀態(部分),經過因果關係事件,將事件中的實體進行關聯,結合實體之間的關聯,能夠進一步進行拓展,查詢,從而實現總體圖譜的聯動。blog

 

 


圖13-事理圖譜與金融知識圖譜知識圖譜融合效果

 

 

除公司知識圖譜與事理圖譜的融合以外,咱們在產業鏈知識圖譜和事理圖譜融合的工做上進行了嘗試,如圖14所示展現了「澳大利亞鋅礦執行復產計劃事件」的融合效果子圖(部分),從「澳大利亞鋅礦執行復產計劃事件」緩解相關鉛產量恢復等事件出發,能夠將事件與「鉛」商品這一商品、有色產業鏈等行業板塊類實體與行業相連接,進一步找到相應的商品、個股等信息,經過這種連接和融合,能夠進一步對事件進行知識信息的擴展,造成從事理到知識概念的通路。

 

 


圖14-事理圖譜與產業鏈知識圖譜融合效果

6、事理圖譜的應用探討
事理圖譜有多種應用場景,咱們在實踐過程當中,主要總結出瞭如下5種應用形式:
一、基於事理圖譜的知識問答。因爲後臺有以事件和靜態知識爲核心的事理邏輯,能夠在完成「when」,「who」,「what」,「where」等常識問題的同時,進一步回答「how」以及「why」的問題,這種問答的形式既能夠是可視化搜索式,也能夠是問答形式,如圖15所示:


圖15-基於事理的知識問答

 

 

當用戶輸入「特朗普和金正恩又罵戰了會怎麼樣?」這一問句後,系統可以給出直接的回答「這頗有可能會是的美國朝鮮局勢更爲緊張,朝鮮局勢緊張可能會帶來全球股市走低、避險情緒升溫、金價上漲等一系列影響」。經過對該回答,再配以可視化因果邏輯鏈的展現方式,能夠進一步爲這一回答提供佐證。
二、基於事理圖譜的消費意圖識別。本文在前面說到,順承事理圖譜對具備時序特徵的敘述性事件可以很好的刻畫,它描繪了敘述性事件的整個階段。而咱們正好能夠利用這
種階段性的特徵,完成消費推薦的任務。如圖16所示:

 

 

 

圖16-基於事理的消費意圖識別
例如,當用戶發出「麗江是個好地方,我想去看看」的狀態時,經過分析該用戶的消費意圖,將消費意圖識別爲一個出行事件時,經過遊走以「麗江出行」這一個順承圖譜能夠推出多種消費行爲。例如「出機場、看到接待點」這個子事件能夠推出「機票預訂與推薦」與「接送機」服務;「預訂#客棧」這一子事件能夠引出「酒店預訂」服務,「買臥鋪票」這一子事件可引出「火車票預訂」這項需求。全局的來看,整個出行圖譜能夠做爲一個總體的出行指南提供給用戶,充當用戶規劃的「探路者」與「規劃師」。

三、基於事理圖譜的重要新聞判別與推薦。大數據時代下,海量新聞在網絡上快速傳播,新聞個性化推薦以及重要新聞篩選成爲了新聞檢索中的兩個重要任務。目前的推薦算法主要基於協同過濾、基於內容推薦和混合推薦方法,這幾種方法從本質上來講都是對內容與用戶進行建模並進行類似性計算獲得的一種結果。事理圖譜的出現,提供了一種重要性判別方式和新聞推薦方式。「歷史老是類似的,重要的事情老是周而復始的出現」,在這一假設下,經過對新聞文本進行事件提取,並結合背後的事理圖譜,根據事件後續產生影響的重要性能夠爲整個新聞進行重要性評分,並給出該新聞事件所蘊含的已有事件和將來事件信息。經過這種方式對新聞資訊進行建模和篩選,並結合用戶興趣模型,能夠完成重要新聞的判別和推薦,如圖17所示:


圖17-基於事理圖譜的重要新聞判別與推薦

 

 

四、基於事理圖譜的知識管理
知識圖譜的本質上是一種以實體、實體屬性、實體與實體/屬性之間關係造成的一個知識庫。而因爲知識圖譜中的知識是動態變化的,尤爲在多源知識融合、知識對齊當中,爲了保證知識的準確性、實時性,一般須要進行知識管理和編輯,這種操做能夠相似成數據庫的增、刪、改、查操做,圖18是咱們開發的一個知識圖譜編輯和管理工具,該工具能夠支持對知識圖譜中知識數據的CRUD操做。固然,這種知識更新的方式是人工自動發現並進行編輯,本質上來講,並無實現知識圖譜中數據的全自動更新。


圖18-基於傳統知識圖譜的知識管理

 

 

與知識圖譜不一樣,事理圖譜這一以事件爲實體節點,並融入靜態實體的知識組織方式將靜態的知識和動態的邏輯規則(前面說到的多種事件關係)形緊密相連,造成一個強大的邏輯鏈路網絡,使得事理圖譜天生具有了知識更新指導能力。將事理圖譜與實際的業務邏輯系統相結合,並不斷賦予事理更全面、更精細的邏輯體系,可以在一方面對根據外界事件知識的變化而對已有靜態知識進行及時動態更新,如銀行客服系統中的會話流程控制、互斥業務控制,用戶郵儲狀態的更新等,這將提高銀行客戶系統的體驗和智能水平。舉一個實際的例子:銀行業務中知識圖譜中有一條知識數據,即用戶同時辦理了業務A和業務B,而實際上,辦理業務A和辦理業務B二者之間存在一種互斥關係,那麼則能夠經過兩個業務辦理的前後順序,更新用戶的業務知識信息,將辦理業務B這條知識進行移除。相似的例子還有不少。

五、基於事理圖譜的推理與輔助決策
知識推理是知識圖譜的終極目標,基於過去已知知識進行知識推理,採用如事件驅動傳導路徑等進行知識發現,可以在業務的推理和輔助決策上也能帶來必定幫助,如智能投研中的未知風險預警、公司輿論控制等,如圖19展現了咱們目前開發造成的事件驅動工具,經過人工自定義構造傳導鏈,進行既定模式檢索,能夠完成對既定知識邏輯路線的發現與探索。


圖19-基於傳統知識圖譜的事件驅動推理demo
以上圖中描述的「尋跡」模式進行邏輯鏈條傳導的方式不一樣,基於事理圖譜的事件傳導中的邏輯聯繫更爲接近於人腦中的真實邏輯鏈條。前者傳導的路徑存在着一個基本型的假設,即知識與知識之間的屬性或關係經過人工方式強制地進行映射和編制,其中有個十分明顯的缺陷就是傳導邊上的邏輯機率量化問題。

 

 

「事理圖譜」的出現,則從事件狀態的邏輯轉移上爲這種推理機制提供了一個新的方向。如圖20所示的demo所示,用戶輸入一個事件點擊提交以後,運用事件規範化和事件類似性計算等方法,咱們會在後臺400萬個事理圖譜找到一個與用戶輸入事件最爲類似的一個事件,以該事件爲核心會返回多條類似事件所形成的影響事件。針對影響事件,咱們運用事件重要性斷定技術和事件實體連接技術對影響事件進行過濾,使得形成的事件中必定是某種商品或者公司的相似事件,這種方式可以就用戶給定的事件,給出一個最爲直接了當的標的結果。圖20中展現了以「螺紋鋼價格上漲」爲核心的因果邏輯傳導推理鏈條,在通過不斷進行鏈條的推理擴展以後,步步推理至各種實體事件後最終產生的結果圖。從一度推理的「螺紋鋼價格上漲」致使廢鋼庫存小幅減小,到小麥期貨小幅收低等多層推理結果等,可以在必定程度上描繪出整個邏輯鏈條的傳導機制。

相關文章
相關標籤/搜索