當知識圖譜趕上文本智能處理,會擦出怎樣的火花?

目前以理解人類語言爲入口的認知智能成爲了人工智能發展的突破點,而知識圖譜則是邁向認知智能的關鍵要素。達觀數據在2018AIIA人工智能開發者大會承辦的語言認知智能與知識圖譜公開課上,三位來自企業和學術領域的專家分別從不一樣角度講述的知識圖譜的應用和發展。文本根據達觀數據副總裁王文廣演講內容《知識圖譜與文本智能處理》整理所得,內容略有刪減。算法

當知識圖譜趕上文本智能處理,會擦出怎樣的火花?

人們一些模糊詞義的表達,好比:之前沒有錢買華爲,如今沒有錢買華爲。」這兩句「沒有錢」的意思很不同,咱們人理解這樣的句子很容易,但對於計算機來講理解便很困難。數據庫

同一句話在不一樣場景下含義也很不同,好比說從青島開高速出來在車上談「G20」是指高速有沒有堵車,若是是北京或者是杭州談G20有多是高鐵的票,在一些環境下G20也多是20國集團峯會,這些表達的意思很是須要語境和背景知識的理解。計算機作文字閱讀理解面臨的挑戰主要包括三個方面:網絡

(1)缺少常識體系數據結構

由於沒有豐富的知識體系難以對文字背後的含義進行深刻理解和推導架構

(2)缺少領域的專家經驗學習

人類的業務、法務、財務專家由於有行業知識,因此閱讀文字後與知識對比後能夠造成專業的看法優化

(3)模糊、歧義、抽象會增長困難搜索引擎

語言中模糊不清的現象比比皆是,需結合語境去理解人工智能

知識圖譜是其中一個爲解決問題提出來的方法——咱們能夠把人類的各類知識以知識圖譜的形式沉澱下來,讓計算機利用這個知識圖譜理解更加複雜的含義。spa

知識圖譜基本概念

知識圖譜自己是從語義網發展出來的,也是谷歌提出來的概念,知識圖譜的構建也是如今AI領域裏面的很是大的難點,這是由於不只涉及到AI領域各方面的技術,還包括人類各類領域的知識所造成的專家系統。

構建高質量的不斷演化知識圖譜也是AI領域的難點之一,由於知識圖譜自己研究的意義就是能夠爲語言提供更多的背景知識,讓計算機更好的讀寫文字。基本現狀像谷歌、百度、搜狗都有大量的通用知識圖譜,還有垂直領域的醫療或者是金融領域的知識圖譜的普遍應用也不少,如何結合業務場景使用好知識圖譜是落地的根本要素。

圖片描述

知識圖譜本質上是一種語義網絡,將客觀的經驗沉澱在巨大的網絡中,結點表明實體(entity)或者概念(concept),邊(edge)表明實體/概念之間的語義關係,成熟的圖數據庫如neo4j,Dgraph,JanusGraph等能夠用來存儲知識圖譜。

知識圖譜更加普遍的被認知的是一個三元組的表示形式。就是有三個值,第一個表示第一個實體,第二個值表示第二個實體,中間值是二者之間的關係。三元組自己基於三元組的語義網發展起來,有RDF的檢索語言,還有基於RDF的存儲的開源的方式,都是很方便使用方式。

深度學習的發展促使知識的表示從三元組邁向稠密向量表示,從Word2Vec到對三元組的表示學習,稠密向量,實體等自己能夠用Word2Vec等進行表示學習,例如 Vector(山東省) - Vector(威海市) = Vector(廣東省) - Vector(佛山市) ,對於三元組的表示學習,有各種深度學習算法,如TransE、TransH、TransR、TransG、KBGAN、等。

知識圖譜上的應用很是多,好比推薦系統能夠用上知識圖譜來實現更加智能的推薦,除此以外,知識問答、文檔審覈等也是知識圖譜常見的應用場景。

通用型知識圖譜和行業型知識圖譜

通常來說會把知識圖譜分紅通用和行業的知識圖譜,通用型的就是剛剛提過像谷歌,構建知識圖譜就是一個面向全領域,沒有一些特別的偏好,國內有百度或者是搜狗的知識圖譜,還有一些是開放式的像wikidata 以及中文openKG等。

行業垂直型知識圖譜是面向某一特定領域,如金融、法律、財會、教育等,以專家知識爲主,經過結合業務場景,基於行業數據構建,打造「語義層面的行業知識庫」,一般也更加專業。

好比向百度或者是搜狗搜一些人名地名會以卡片的形式展示出來,這個是知識圖譜的現實的應用。金融領域會用知識圖譜分析借貸關係或者是企業的信貸情況等,這是很是強的應用場景。

當知識圖譜趕上文本智能處理,會擦出怎樣的火花?

目前達觀達觀構建一些企業信息法律類的知識圖譜用來幫助咱們的文檔智能審閱系統更好的審覈合同或者是專業文本,像財報或者是上交所的公告等。

如何構建知識圖譜?

知識圖譜有這麼多好處,咱們怎麼去構建一個知識圖譜?簡單來講,構建知識圖譜實際上是一個系統性的工程,不是單一的算法可以完成。

當知識圖譜趕上文本智能處理,會擦出怎樣的火花?

若是要構造一個完整的知識圖譜則是很是複雜的系統工程,會涉及到schema(本體)的構造,而後會有一些知識抽取或者是關係抽取的概念語言。其次,須要對知識推理(關係推理)的結果進行質量評估。此外,須要對知識抽取的監督算法進行樣本標註,或者對自動標註的樣本進行效果確認。

另外對於知識圖譜來講很是重要的一點是反饋機制,咱們怎麼樣利用反饋系統不斷地讓知識圖譜進行進化?這個在構建知識圖譜的過程中很是須要考慮的問題。此外,工程上詳細的logging和報表系統以在須要的時候進行分析和糾正。

分層次的領域模式(Schema)很是重要

當知識圖譜趕上文本智能處理,會擦出怎樣的火花?

schema的構造是層級的方式,專業領域是先按照專家經驗構造出一個知識圖譜的schema,而後在實踐過程中不斷完善,像通用的谷歌或者是百度他們自上而下利用類算法抽取知識圖譜,而後歸類到已經有的schema,若是歸類不到就千方百計生成新的schema的模式匹配它。

在這裏面知識圖譜構建過程中,除了schema以外就是往圖譜裏填內容,這個過程就是知識抽取,自己是包括了實體抽取和關係抽取,還有屬性抽取這幾個概念,在實踐過程中,其實不徹底是像在論文裏面看到的各類抽取,有多是從結構化數據庫裏面按照某一種專業的規則直接轉化,由於不少的知識其實已經存儲在各個企業裏面關係數據庫裏面。這種狀況下多是用了簡單的規則就轉化成知識圖譜的一部分的內容。

另一部分是半結構數據,維基百科不少的標籤是已經存在在裏面的,還有國家企業信息公示網的各類實體公司名或者是企業法人都是以半結構化存在,這個用模板匹配就能夠完成了。

這裏面簡單的就總結了剛剛提到的點,在不一樣的背景下可能選擇不一樣的知識抽取的算法能夠更好的去幫助咱們構建一個完整的知識圖譜。

當知識圖譜趕上文本智能處理,會擦出怎樣的火花?

這是一個像BiLSTM-CRF用於命名實體識別經常使用的辦法,幫助咱們識別非結構化文本,好比說書籍或者是合同或者是新聞裏面的實體。

當知識圖譜趕上文本智能處理,會擦出怎樣的火花?

Bi-LSTM雙向網絡分別從前日後和從後往前進行序列信號的記憶和傳遞是常見作法,CRF等經典方法結果可控性好,在序列標註時,在頂層用CRF對Bi-LSTM的結果進行二次操做可獲得更好的結果。

除了剛剛提到的知識抽取以外,其實抽取完以後在不一樣的地方表現方法和表達方式不同,在不一樣來源的知識裏面如何融合成一個相同的?這個是咱們須要考慮的點,這裏有幾個例子:好比說蘇東坡在不一樣的地方會被提到,並且有不一樣的名字,多是曆書裏面有東坡學士這樣的說法,還有蘇軾的叫法。

另外這些不只僅存在中國,由於多元跨國之間的交流也致使很大的問題,好比說後面的例子是美國總統特朗普,中文的官方名稱是特朗普,你們還有稱他爲川普,還有其餘的語言西班牙或者是土耳其語。在多元的環境下如何進行知識圖譜?其實對知識圖譜構建是很是大的挑戰。

當知識圖譜趕上文本智能處理,會擦出怎樣的火花?

這是一個網絡上的例子,來自於幾個不一樣的影視劇或者是小說,裏面的部分人是同一我的,可是不一樣的小說可能有不一樣的名字或是不一樣影視劇裏面的主角,這樣若是作成一個知識圖譜如何歸結好?利用各類影視劇小說裏面的內容進行推理,實際上是多元知識融合裏面很是通俗易懂的例子。這個是人工整理,人有專業的知識很是好作,可是耗費了大量的人力,不能把各類知識都作很好的融合,因此咱們須要發掘更多算法去實現這個目標。

除了剛剛提到的抽取和融合以外,對於知識圖譜的存儲其實也是很是大的挑戰。大一點的通用的知識圖譜都是幾十億甚至上百億的節點,可能百億千億級別的關係,如何作好存儲系統是極其須要考慮的點,下圖總結目前常見的幾種存儲類型,像RDF和ApacheJena以三元組的形式表現的,NoSQL也能夠存儲,可是若是量大會很吃力,開源的Neo4j是單機的,DGraph正在發展,按照官方的說法支持千億級別的,可是如今尚未達到,但億級別是徹底沒有問題的。

當知識圖譜趕上文本智能處理,會擦出怎樣的火花?

下圖一個JanusGraph,有以下幾個特色:

當知識圖譜趕上文本智能處理,會擦出怎樣的火花?

十億以上的節點和邊

C* 或 Hbase等

與Spark無縫集成

支持使用ElasticSearch進行高效檢索

最終一致性

支持Gremlin語言進行在線分析

開源

除了以上這些點,若是構建好了知識圖譜,要對知識進行推理和評估,知識推理自己能夠補充知識圖譜的內容,或者是進行完善或者是較驗。對於知識圖譜大部分仍是須要人工的參與。

Path Ranking Algorithm(PRA)算法和DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning,這兩個是知識推理的前沿進展,有興趣能夠去看一下。

總之,從合適的業務場景出發是成功構建和使用行業知識圖譜的關鍵。

當知識圖譜趕上文本智能處理,會擦出怎樣的火花?

知識圖譜行業應用

知識圖譜的做用是銜接企業的數據和業務需求。

當知識圖譜趕上文本智能處理,會擦出怎樣的火花?

對於企業來講,是把原有的分散的數據變成集中化的管理。多是遇到比較大的集團企業他的傳統的數據是分散的,不一樣的部門和公司之間,這部分的知識是沒有被更好的利用起來。如何利用好這些數據?更好的支持業務,讓整個業務更高效的運行?實際上是整個企業在作知識圖譜須要考慮的一個點。

對於咱們來講他的難點就是在於由於自己的數據很是的分散,不一樣的數據結構表示不同,存在不一樣的地方有不一樣的表達方式,如何作好這部分融合的工做實際上是很大的難點。

知識圖譜的應用場景能夠是簡單的利用,即直接用知識圖譜的分析,下圖比是早的阿里巴巴的分析圖,當時發生了一個事件馬雲把支付寶私有化,當時他們畫了一個阿里巴巴的股權結構圖,像這種股權分析在金融領域裏面是很是直接的知識圖譜的應用。

當知識圖譜趕上文本智能處理,會擦出怎樣的火花?

除此以外,信貸分析也是經典的應用場景,直接用知識圖譜或者是知識推理進行分析,生成相應的報告或者得出一些結論,這個是最直接的應用場景。

第二是利用知識圖譜作一些輿情分析熱點分析,把知識圖譜和其餘的結合起來使用。

當知識圖譜趕上文本智能處理,會擦出怎樣的火花?

達觀擅長的VOC用戶評論分析,會涉及到用戶評論歸類到哪個實體裏面,好比說一個企業會抓他的全部的評論和微博數據,會概括到具體的品牌和產品上,甚至是歸到產品的某些類別中。好比說手機,有不一樣的品牌,每一個品牌下面有不一樣的型號,每一個型號下有不一樣的版本,手機自己有不一樣的零件——屏幕或者是相機之類。每一個評論過來以後其實針對的是某一個具體手機的型號,在這個型號裏面有多是針對整機進行評價,有多是針對整機裏面的部件。那麼咱們須要作的更好的分析就是能夠利用像手機這種相似的知識圖譜對它進行更深刻的分析。

招聘也是達觀目前在作的,有企業在用,能夠對候選人和職位構建出圖譜進行分析,更好的理解這個職位須要招什麼人?也能夠更好的瞭解候選人適合哪個職位。

此外,基於知識圖譜實現更加智能的搜索。基於知識圖譜的檢索最先用在搜索引擎上面,搜索利用這些以後能夠更好的理解用戶的意圖,達到更好的效果。

推薦系統也能夠用知識圖譜,這個是達觀在作的,達觀的推薦系統在業界比較領先,知識圖譜能夠針對不一樣的場景或者是不一樣的類型還有不一樣的領域推薦。推薦中最重要的一點是冷啓動問題,若是徹底沒有數據的系統或者是剛構建的系統,想達到好的推薦效果比較難,利用知識圖譜裏面的內容能更好的在冷啓動的環境下達到更好的效果。如何利用深度學習把知識圖譜用在推薦系統上,也是達觀數據在研究的內容。

構建知識圖譜之上的問答系統是最直接的,知識問答是你須要瞭解用戶問的問題是什麼意思?而後給他一個最直接的答案。知識問答除了像各類搜索引擎,這個裏面的例子有幾個,一個是問范冰冰的男朋友是誰,百度就直接給出一個卡片。

當知識圖譜趕上文本智能處理,會擦出怎樣的火花?

前面就是一些通用場景下的應用場景,下面講講達觀數據對知識圖譜的的一些應用。

當知識圖譜趕上文本智能處理,會擦出怎樣的火花?

這個場景是合同審閱,自動化的幫企業審閱各類合同文本和公告,合同須要符合合同法規定的,以及企業內部的法務部門對合同有一些要求,以及自己合同是一個很是規範的文本,不容許有錯別字等。

達觀文檔智能審閱系統能利用知識圖譜裏面包括對法律文本的語義化的圖譜應用,自動完成審閱。以及對企業信息能夠從工商信息網的信息裏面能夠作一些較驗。

當知識圖譜趕上文本智能處理,會擦出怎樣的火花?

推薦系統剛剛提到過,推薦系統裏面應用到知識圖譜,這個是簡單的例子,好比說達觀數據和人工智能公司,是屬於人工智能的一個領域,若是一個用戶對人工智能感興趣,對達觀相關的信息就感興趣,好比說達觀的融資信息,這個對人工智能來講是一個比較有用的新聞,能夠判斷這個領域是否是繁榮?估值是否是上漲了仍是降低了?

當知識圖譜趕上文本智能處理,會擦出怎樣的火花?

上圖是達觀用深度學習的方式把知識圖譜的三元組表示應用到協同過濾和推薦相關的領域。

總結
前面簡單的介紹了整個知識圖譜的相關的內容,最後作一些總結。

1.構建知識圖譜自己是很是系統性的工程,包括計算機的方方面面還有實踐過程,以及企業真實應用場景中包括對企業的不斷的溝通,不一樣部門之間整合的過程

2.整個知識圖譜的構建沒有"銀彈",沒有一個統一或者是完美的方法搞定一個事情,在作事情的過程中須要因時因地制宜的實現

3.知識圖譜的構建能有效提高文本智能處理的效果

4.知識圖譜多是走向認知智能的關鍵要素

5.知識圖譜須要結合應用場景作分析落地,落地以後還要不斷的優化總結來提高整個效果

關於嘉賓

王文廣,達觀數據副總裁,在人工智能領域和系統架構設計上有十餘年工做經驗,浙江大學計算機碩士。曾擔任金融AI公司Kavout首席架構師,將人工智能(AI)和天然語言處理(NLP)技術應用於金融、證券、量化交易等領域,效果獲得美國大型基金公司承認。

曾負責盛大創新院搜索、推薦、廣告等多個項目的架構設計工做,所設計和開發的系統具有海量數據的快速處理和高度智能的挖掘能力,屢次得到嘉獎。早期在百度負責MP3搜索、語音識別與搜索和音頻指紋等系統的核心研發。

相關文章
相關標籤/搜索