【說在前面】本人博客新手一枚,象牙塔的老白,職業場的小白。如下內容僅爲我的看法,歡迎批評指正,不喜勿噴![認真看圖][認真看圖]html
【補充說明】若是你對知識圖譜感興趣,歡迎先瀏覽個人另外一篇隨筆:基於圖模型的智能推薦算法學習筆記python
分享一下肖仰華教授的報告。報告深度剖析知識圖譜的發展進程,系統整理知識圖譜上半場的主要成果,分析知識圖譜下半場的挑戰與機遇,以期爲各行業的認知智能實踐帶來有益的參考。面試
① 大規模簡單知識表示算法
② 知識獲取數據庫
③ 基於知識圖譜的簡單推理網絡
① 語言表達鴻溝數據結構
② 缺失的因果鏈條app
③ 碎片化數據的關聯與融合框架
④ 深化行業數據的理解與洞察 機器學習
⑤ 顯著提高了機器的天然語言理解水平
⑥ 基於知識圖譜的大規模知識服務
⑦ 知識圖譜可視化已大量應用
⑧ 大數據知識工程理論體系日趨完善
① 繁雜的應用場景
② 深度的知識應用
③ 密集的專家知識
④ 有限的數據資源
知識表示方面:
① 與其餘知識表示的協同表示與推理
② 知識圖譜的多模態表示
③ 知識圖譜的個性化表示
知識獲取方面:
① 發展低成本知識獲取方法
② 注重多粒度知識獲取
③ 發展大規模常識知識獲取
④ 複雜知識獲取機制與方法
知識應用方面:
① 知識圖譜應用透明化
② 基於知識圖譜的可解釋人工智能
③ 發展符號知識指導下的機器學習模型
▌總結
分享一下PlantData的文章:行業知識圖譜構建與應用。
知識圖譜結構拓撲圖如圖所示:
企業全量數據應用挑戰及應對策略:
(1)多源異構數據難以融合
使用知識圖譜(本體)對各種數據建模,基於可動態變化的數據模型(概念-實體-屬性-關係),實現統一建模。
(2)數據模式動態變遷困難
使用可支持數據模式動態變化的知識圖譜的數據存儲。
(3)非結構化數據計算機難以理解
利用信息抽取技術。
(4)數據使用專業程度太高
(5)分散的數據難以統一消費利用
在知識融合的基礎上,基於語義檢索、知識問答、圖計算、推理、可視化等技術,提供數據檢索/分析/利用,統一平臺。
(1)以實體爲主體目標,實現對不一樣來源的數據進行映射與合併。(實體抽取與合併)
(2)利用屬性來表示不一樣數據源中針對實體的描述,造成對實體的全方位描述。(屬性映射與歸併)
(3)利用關係來描述各種抽象建模成實體的數據之間的關聯關係,從而支持關聯分析。(關係抽取)
(4)經過實體連接技術,實現圍繞實體的多種類型數據的關聯存儲。(實體連接)
(5)使用事件機制描述客觀世界中動態發展,體現事件與實體間的關聯;並利用時序描述事件的發展情況。(動態事件描述)
知識建模工具:Protégé(本體編輯器,較侷限)
知識抽取的主要策略如圖所示(針對結構化、半結構化、非結構化數據的處理方式不一樣):
知識抽取中的文本信息抽取,主要包括:實體識別、關係抽取、事件抽取、概念抽取。信息抽取主要有兩大類工具:
非結構化文本數據的處理包括如下步驟:
其中,事件抽取能夠分爲預約義事件抽取和開放域事件抽取,行業知識圖譜中主要爲預約義事件抽取。採用模式匹配方法,包括三個步驟:
還有基於機器學習模型的抽取:SVM、邏輯迴歸、CRF、LSTM等:
補充說明,關於知識表示,歡迎先瀏覽個人另外一篇隨筆:基於圖模型的智能推薦算法學習筆記,這裏再也不贅述。
(1)數據層融合:實體連接技術
即等同性判斷:給定不一樣數據源中的實體,判斷其是否指向同一個真實世界實體(實體屬性與關係的合併)。
實體連接工具:Wikipedia Miner、DBpedia Spotlight等,大部分都是針對百科類的知識庫工做的,基本不支持中文的處理。
(2)語義描述層融合:Schema Mapping
固然還有一些別的須要考慮,例如多源知識融合、衝突檢測與解決、跨語言融合、知識驗證等。
例如,經過人機交互接口對錯誤信息進行人工糾正,並以此做爲種子案例,經過強化學習增強模型的識別精度和魯棒性。
知識圖譜是基於圖的數據結構,其存儲方式主要有兩種方式:RDF存儲和圖數據庫。
下面展現各大圖數據庫的對比:
(1)基於圖論的相關算法:
(2)本體推理:使用本體推理進行新知識發現或衝突檢測。
本體知識推理工具:RDFox。
(3)基於規則的推理:使用規則引擎,編寫相應的業務規則,經過推理輔助業務決策。
基於規則推理工具:Drools 規則定義。
智能問答(基於語義解析的方法+基於信息檢索的方法)、語義搜索(基於實體連接)、可視化決策支持(D3.js、ECharts)等。
舉例金融業的基於知識圖譜的風險管理:
可構建的圖譜:例如公司圖譜、產品圖譜、⼈物圖譜、智能預警等。在行業應用中使用知識圖譜,大體有以下幾種方式:
若是您對異常檢測感興趣,歡迎瀏覽個人另外一篇博客:異常檢測算法演變及學習筆記
若是您對智能推薦感興趣,歡迎瀏覽個人另外一篇博客:智能推薦算法演變及學習筆記 、CTR預估模型演變及學習筆記
若是您對時間序列分析感興趣,歡迎瀏覽個人另外一篇博客:時間序列分析中預測類問題下的建模方案 、深度學習中的序列模型演變及學習筆記
若是您對數據挖掘感興趣,歡迎瀏覽個人另外一篇博客:數據挖掘比賽/項目全流程介紹 、機器學習中的聚類算法演變及學習筆記
若是您對人工智能算法感興趣,歡迎瀏覽個人另外一篇博客:人工智能新手入門學習路線和學習資源合集(含AI綜述/python/機器學習/深度學習/tensorflow)、人工智能領域經常使用的開源框架和庫(含機器學習/深度學習/強化學習/知識圖譜/圖神經網絡)
若是你是計算機專業的應屆畢業生,歡迎瀏覽個人另一篇博客:若是你是一個計算機領域的應屆生,你如何準備求職面試?
若是你是計算機專業的本科生,歡迎瀏覽個人另一篇博客:若是你是一個計算機領域的本科生,你能夠選擇學習什麼?
若是你是計算機專業的研究生,歡迎瀏覽個人另一篇博客:若是你是一個計算機領域的研究生,你能夠選擇學習什麼?
若是你對金融科技感興趣,歡迎瀏覽個人另外一篇博客:若是你想了解金融科技,不妨先了解金融科技有哪些可能?
以後博主將持續分享各大算法的學習思路和學習筆記:hello world: 個人博客寫做思路