知識圖譜——數據實體化的手段

時間:2015-08-03 06:35:54  來源:清華大學  做者:劉知遠算法

物聯網如今更多專一於將實體數據化,而將數據實體化也將是一個重要課題。互聯網網頁,如新聞、博客等內容裏涉及大量實體。將數據實體化,對實現真正的智能是很是重要的技術手段。bootstrap

知識就是力量。——[英]弗蘭西斯·培根網絡

 1 什麼是知識圖譜  

在互聯網時代,搜索引擎是人們在線獲取信息和知識的重要工具。當用戶輸入一個查詢詞,搜索引擎會返回它認爲與這個關鍵詞最相關的網頁。從誕生之日 起,搜索引擎就是這樣的模式,直到2012年5月,搜索引擎巨頭谷歌在它的搜索頁面中首次引入「知識圖譜」:用戶除了獲得搜索網頁連接外,還將看到與查詢 詞有關的更加智能化的答案。以下圖所示,當用戶輸入「Marie Curie」(瑪麗·居里)這個查詢詞,谷歌會在右側提供了居里夫人的詳細信息,如我的簡介、出生地點、生卒年月等,甚至還包括一些與居里夫人有關的歷史 人物,例如愛因斯坦、皮埃爾·居里(居里夫人的丈夫)等。app

圖1-1 谷歌搜索引擎知識圖譜框架

谷歌知識圖譜一出激起千層浪,美國的微軟必應,中國的百度、搜狗等搜索引擎公司在短短的一年內紛紛宣佈了各自的「知識圖譜」產品,如百度「知心 「、搜狗「知立方「等。爲何這些搜索引擎巨頭紛紛跟進知識圖譜,在這上面一擲千金,甚至把它視爲搜索引擎的將來呢?這就須要從傳統搜索引擎的原理講起。 以百度爲例,在過去當咱們想知道「泰山」的相關信息的時候,咱們會在百度上搜索「泰山」,它會嘗試將這個字符串與百度抓取的大規模網頁作比對,根據網頁與 這個查詢詞的相關程度,以及網頁自己的重要性,對網頁進行排序,做爲搜索結果返回給用戶。而用戶所需的與「泰山」相關的信息,就還要他們本身動手,去訪問 這些網頁來找了。iphone

固然,與搜索引擎出現以前相比,搜索引擎因爲大大縮小了用戶查找信息的範圍,隨着網絡信息的爆炸式增加,日益成爲人們遨遊信息海洋的不可或缺的工 具。可是,傳統搜索引擎的工做方式代表,它只是機械地比對查詢詞和網頁之間的匹配關係,並無真正理解用戶要查詢的究竟是什麼,遠遠不夠「聰明」,固然經 常會被用戶嫌棄了。機器學習

而知識圖譜則會將「泰山」理解爲一個「實體」(entity),也就是一個現實世界中的事物。這樣,搜索引擎會在搜索結果的右側顯示它的基本資 料,例如地理位置、海拔高度、別名,以及百科連接等等,此外甚至還會告訴你一些相關的「實體」,如嵩山、華山、衡山和恆山等其餘三山五嶽等。固然,用戶輸 入的查詢詞並不見得只對應一個實體,例如當在谷歌中查詢「apple」(蘋果)時,谷歌不止展現IT巨頭「Apple-Corporation」(蘋果公 司)的相關信息,還會在其下方列出「apple-plant」(蘋果-植物)的另一種實體的信息。分佈式

從雜亂的網頁到結構化的實體知識,搜索引擎利用知識圖譜可以爲用戶提供更具條理的信息,甚至順着知識圖譜能夠探索更深刻、普遍和完整的知識體系, 讓用戶發現他們意想不到的知識。谷歌高級副總裁艾米特·辛格博士一語道破知識圖譜的重要意義所在:「構成這個世界的是實體,而非字符串(things, not strings)」。工具

很明顯,以谷歌爲表明的搜索引擎公司但願利用知識圖譜爲查詢詞賦予豐富的語義信息,創建與現實世界實體的關係,從而幫助用戶更快找到所需的信息。 谷歌知識圖譜不只從 Freebase和維基百科等知識庫中獲取專業信息,同時還經過分析大規模網頁內容抽取知識。如今谷歌的這幅知識圖譜已經將5億個實體編織其中,創建了 35 億個屬性和相互關係,並在不斷高速擴充。佈局

谷歌知識圖譜正在不斷融入其各大產品中服務廣大用戶。最近,谷歌在Google Play Store的Google Play Movies & TV應用中添加了一個新的功能,當用戶使用安卓系統觀看視頻時,暫停播放,視頻旁邊就會自動彈出該屏幕上人物或者配樂的信息。這些信息就是來自谷歌知識圖 譜。谷歌會圈出播放器窗口全部人物的臉部,用戶能夠點擊每個人物的臉來查看相關信息。此前,Google Books 已經應用此功能。

圖1-2 Google利用知識圖譜標示視頻中的人物和音樂信息

2 知識圖譜的構建

最初知識圖譜是谷歌推出的產品名稱,與Facebook提出的社交圖譜(Social Graph)殊途同歸。因爲其表意形象,如今知識圖譜已經被用來泛指各類大規模知識庫。

咱們應當如何構建知識圖譜呢?首先,咱們先了解一下,知識圖譜的數據來源都有哪些。知識圖譜的最重要的數據來源之一是以維基百科、百度百科爲表明 的大規模知識庫,在這些由網民協同編輯構建的知識庫中,包含了大量結構化的知識,能夠高效地轉化到知識圖譜中。此外,互聯網的海量網頁中也蘊藏了海量知 識,雖然相對知識庫而言這些知識更顯雜亂,但經過自動化技術,也能夠將其抽取出來構建知識圖譜。接下來,咱們分別詳細介紹這些識圖譜數據來源。

2.1 大規模知識庫

大規模知識庫以詞條做爲基本組織單位,每一個詞條對應現實世界的某個概念,由世界各地的編輯者義務協同編纂內容。隨着互聯網的普及和Web 2.0理念深刻人心,這類協同構建的知識庫,不管是數量、質量仍是更新速度,都早已超越傳統由專家編輯的百科全書,成爲人們獲取知識的主要來源之一。目 前,維基百科已經收錄了超過2200萬詞條,而僅英文版就收錄了超過400萬條,遠超過英文百科全書中最權威的大英百科全書的50萬條,是全球瀏覽人數排 名第6的網站。值得一提的是,2012年大英百科全書宣佈中止印刷版發行,全面轉向電子化。這也從一個側面說明在線大規模知識庫的影響力。人們在知識庫中 貢獻了大量結構化的知識。以下圖所示,是維基百科關於「清華大學」的詞條內容。能夠看到,在右側有一個列表,標註了與清華有關的各種重要信息,如校訓、創 建時間、校慶日、學校類型、校長,等等。在維基百科中,這個列表被稱爲信息框(infobox),是由編輯者們共同編輯而成。信息框中的結構化信息是知識 圖譜的直接數據來源。

除了維基百科等大規模在線百科外,各大搜索引擎公司和機構還維護和發佈了其餘各種大規模知識庫,例如谷歌收購的Freebase,包含3900萬 個實體和18億條實體關係;DBpedia是德國萊比錫大學等機構發起的項目,從維基百科中抽取實體關係,包括1千萬個實體和14億條實體關係;YAGO 則是德國馬克斯·普朗克研究所發起的項目,也是從維基百科和WordNet等知識庫中抽取實體,到2010年該項目已包含1千萬個實體和1.2億條實體關 系。此外,在衆多專門領域還有領域專家整理的領域知識庫。

圖2-1 維基百科詞條「清華大學」部份內容

    2.2 互聯網連接數據  

國際萬維網組織W3C在2007年發起了開放互聯數據項目(Linked Open Data,LOD)。該項目旨在將由互聯文檔組成的萬維網(Web of documents)擴展成由互聯數據組成的知識空間(Web of data)。LOD以RDF(Resource Description Framework)形式在Web上發佈各類開放數據集,RDF是一種描述結構化知識的框架,它將實體間的關係表示爲 (實體1, 關係, 實體2) 的三元組。LOD還容許在不一樣來源的數據項之間設置RDF連接,實現語義Web知識庫。目前世界各機構已經基於LOD標準發佈了數千個數據集,包含數千億 RDF三元組。隨着LOD項目的推廣和發展,互聯網會有愈來愈多的信息以連接數據形式發佈,然而各機構發佈的連接數據之間存在嚴重的異構和冗餘等問題,如 何實現多數據源的知識融合,是LOD項目面臨的重要問題。

圖2-2 開放互聯數據項目發佈數據集示意圖

2.3 互聯網網頁文本數據

與整個互聯網相比,維基百科等知識庫仍只能算滄海一粟。所以,人們還須要從海量互聯網網頁中直接抽取知識。與上述知識庫的構建方式不一樣,不少研究 者致力於直接從無結構的互聯網網頁中抽取結構化信息,如華盛頓大學Oren Etzioni教授主導的「開放信息抽取」(open information extraction,OpenIE)項目,以及卡耐基梅隆大學Tom Mitchell教授主導的「永不中止的語言學習」(never-ending language learning, NELL)項目。OpenIE項目所開發的演示系統TextRunner已經從1億個網頁中抽取出了5億條事實,而NELL項目也抽取了超過5千萬條事 實。

顯而易見,與從維基百科中抽取的知識庫相比,開放信息抽取從無結構網頁中抽取的信息準確率還很低,其主要緣由在於網頁形式多樣,噪音信息較多,信 息可信度較低。所以,也有一些研究者嘗試限制抽取的範圍,例如只從網頁表格等內容中抽取結構信息,並利用互聯網的多個來源互相印證,從而大大提升抽取信息 的可信度和準確率。固然這種作法也會大大下降抽取信息的覆蓋面。天下沒有免費的午飯,在大數據時代,咱們須要在規模和質量之間尋找一個最佳的平衡點。

2.4 多數據源的知識融合

從以上數據來源進行知識圖譜構建並不是孤立進行。在商用知識圖譜構建過程當中,須要實現多數據源的知識融合。以谷歌最新發布的Knowledge Vault     (Dong, et al. 2014)    技術爲例,其知識圖譜的數據來源包括了文本、DOM Trees、HTML表格、RDF語義數據等多個來源。多來源數據的融合,可以更有效地斷定抽取知識的可信性。  

知識融合主要包括實體融合、關係融合和實例融合。對於實體,人名、地名、機構名每每有多個名稱。例如「中國移動通訊集團公司」有「中國移動」、 「中移動」、「移動通訊」等名稱。咱們須要將這些不一樣名稱規約到同一個實體下。同一個實體在不一樣語言、不一樣國家和地區每每會有不一樣命名,例如著名足球明星 Beckham在大陸漢語中稱做「貝克漢姆」,在香港譯做「碧鹹」,而在臺灣則被稱爲「貝克漢」。與此對應的,同一個名字在不一樣語境下可能會對應不一樣實 體,這是典型的一詞多義問題,例如「蘋果」有時是指一種水果,有時則指的是一家著名IT公司。在這樣複雜的多對多對應關係中,如何實現實體融合是很是複雜 而重要的課題。如前面開放信息抽取所述,同一種關係可能會有不一樣的命名,這種現象在不一樣數據源中抽取出的關係中尤爲顯著。與實體融合相似,關係融合對於知 識融合相當重要。在實現了實體和關係融合以後,咱們就能夠實現三元組實例的融合。不一樣數據源會抽取出相同的三元組,並給出不一樣的評分。根據這些評分,以及 不一樣數據源的可信度,咱們就能夠實現三元組實例的融合與抽取。

知識融合既有重要的研究挑戰,又須要豐富的工程經驗。知識融合是實現大規模知識圖譜的必由之路。知識融合的好壞,每每決定了知識圖譜項目的成功與否,值得任何有志於大規模知識圖譜構建與應用的人士高度重視。

3 知識圖譜的典型應用

知識圖譜將搜索引擎從字符串匹配推動到實體層面,能夠極大地改進搜索效率和效果,爲下一代搜索引擎的形態提供了巨大的想象空間。知識圖譜的應用前景遠不止於此,目前知識圖譜已經被普遍應用於如下幾個任務中。

3.1 查詢理解(Query Understanding)

谷歌等搜索引擎巨頭之因此致力於構建大規模知識圖譜,其重要目標之一就是可以更好地理解用戶輸入的查詢詞。用戶查詢詞是典型的短文本(short text),一個查詢詞每每僅由幾個關鍵詞構成。傳統的關鍵詞匹配技術沒有理解查詢詞背後的語義信息,查詢效果可能會不好。

例如,對於查詢詞「李娜 大滿貫」,若是僅用關鍵詞匹配的方式,搜索引擎根本不懂用戶到底但願尋找哪一個「李娜」,而只會機械地返回全部含有「李娜」這個關鍵詞的網頁。但經過利用知 識圖譜識別查詢詞中的實體及其屬性,搜索引擎將可以更好地理解用戶搜索意圖。如今,咱們到谷歌中查詢「李娜 大滿貫」,會發現,首先谷歌會利用知識圖譜在頁面右側呈現中國網球運動員李娜的基本信息,咱們能夠知道這個李娜是指的中國網球女運動員。同時,谷歌不只像 傳統搜索引擎那樣返回匹配的網頁,更會直接在頁面最頂端返回李娜贏得大滿貫的次數「2」。

圖3-1 谷歌中對「李娜 大滿貫」的查詢結果

主流商用搜索引擎基本都支持這種直接返回查詢結果而非網頁的功能,這背後都離不開大規模知識圖譜的支持。以百度爲例,下圖是百度中對「珠穆朗瑪峯高度」的查詢結果,百度直接告訴用戶珠穆朗瑪峯的高度是8844.43米。

圖3-2 百度中對「珠穆朗瑪峯高度」的查詢結果

基於知識圖譜,搜索引擎還能得到簡單的推理能力。例如,下圖是百度中對「梁啓超的兒子的妻子」的查詢結果,百度可以利用知識圖譜知道梁啓超的兒子是梁思成,梁思成的妻子是林徽因等人。

圖3-3 百度中對「梁啓超的兒子的妻子」的查詢結果

採用知識圖譜理解查詢意圖,不只能夠返回更符合用戶需求的查詢結果,還能更好地匹配商業廣告信息,提升廣告點擊率,增長搜索引擎受益。所以,知識圖譜對搜索引擎公司而言,是一舉多得的重要資源和技術。

3.2 自動問答(Question Answering)

人們一直在探索比關鍵詞查詢更高效的互聯網搜索方式。不少學者預測,下一代搜索引擎將可以直接回答人們提出的問題,這種形式被稱爲自動問答。例如 著名計算機學者、美國華盛頓大學計算機科學與工程系教授、圖靈中心主任Oren Etzioni於2011年就在Nature雜誌上發表文章「搜索須要一場變革「(Search Needs a Shake-Up)。該文指出,一個能夠理解用戶問題,從網絡信息中抽取事實,並最終選出一個合適答案的搜索引擎,才能將咱們帶到信息獲取的制高點。如上 節所述,目前搜索引擎已經支持對不少查詢直接返回精確答案而非海量網頁而已。

關於自動問答,咱們將有專門的章節介紹。這裏,咱們須要着重指出的是,知識圖譜的重要應用之一就是做爲自動問答的知識庫。在搜狗推出中文知識圖譜 服務」知立方「的時候,曾經以回答」梁啓超的兒子的太太的情人的父親是誰?「這種近似腦筋急轉彎似的問題做爲案例,來展現其知識圖譜的強大推理能力。雖然 大部分用戶不會這樣拐彎抹角的提問,但人們會常常須要尋找諸如」劉德華的妻子是誰?「、」侏羅紀公園的主演是誰?「、「姚明的身高?」以及」北京有幾個 區?「等問題的答案。而這些問題都須要利用知識圖譜中實體的複雜關係推理獲得。不管是理解用戶查詢意圖,仍是探索新的搜索形式,都毫無例外須要進行語義理 解和知識推理,而這都須要大規模、結構化的知識圖譜的有力支持,所以知識圖譜成爲各大互聯網公司的必爭之地。

最近,微軟聯合創始人Paul Allen投資建立了艾倫人工智能研究院(Allen Institute for Artificial Intelligence),致力於創建具備學習、推理和閱讀能力的智能系統。2013年末,Paul Allen任命Oren Etzioni教授擔任艾倫人工智能研究院的執行主任,該任命所釋放的信號頗值得咱們思考。

3.3 文檔表示(Document Representation)

經典的文檔表示方案是空間向量模型(Vector Space Model),該模型將文檔表示爲詞彙的向量,並且採用了詞袋(Bag-of-Words,BOW)假設,不考慮文檔中詞彙的順序信息。這種文檔表示方案 與上述的基於關鍵詞匹配的搜索方案相匹配,因爲其表示簡單,效率較高,是目前主流搜索引擎所採用的技術。文檔表示是天然語言處理不少任務的基礎,如文檔分 類、文檔摘要、關鍵詞抽取,等等。

經典文檔表示方案已經在實際應用中暴露出不少固有的嚴重缺陷,例如沒法考慮詞彙之間的複雜語義關係,沒法處理對短文 本(如查詢詞)的稀疏問題。人們一直在嘗試解決這些問題,而知識圖譜的出現和發展,爲文檔表示帶來新的但願,那就是基於知識的文檔表示方案。一篇文章再也不 只是由一組表明詞彙的字符串來表示,而是由文章中的實體及其複雜語義關係來表示    (Schuhmacher, et al. 2014)    。 該文檔表示方案實現了對文檔的深度語義表示,爲文檔深度理解打下基礎。一種最簡單的基於知識圖譜的文檔表示方案,能夠將文檔表示爲知識圖譜的一個子圖 (sub-graph),即用該文檔中出現或涉及的實體及其關係所構成的圖表示該文檔。這種知識圖譜的子圖比詞彙向量擁有更豐富的表示空間,也爲文檔分 類、文檔摘要和關鍵詞抽取等應用提供了更豐富的可供計算和比較的信息。  

知識圖譜爲計算機智能信息處理提供了巨大的知識儲備和支持,將讓如今的技術從基於字符串匹配的層次提高至知識理解層次。以上介紹的幾個應用能夠說 只能窺豹一斑。知識圖譜的構建與應用是一個龐大的系統工程,其所蘊藏的潛力和可能的應用,將伴隨着相關技術的日漸成熟而不斷涌現。

4 知識圖譜的主要技術

大規模知識圖譜的構建與應用須要多種智能信息處理技術的支持,如下簡單介紹其中若干主要技術。

4.1 實體鏈指(Entity Linking)

互聯網網頁,如新聞、博客等內容裏涉及大量實體。大部分網頁自己並無關於這些實體的相關說明和背景介紹。爲了幫助人們更好地瞭解網頁內容,不少 網站或做者會把網頁中出現的實體連接到相應的知識庫詞條上,爲讀者提供更詳盡的背景材料。這種作法實際上將互聯網網頁與實體之間創建了連接關係,所以被稱 爲實體鏈指。

手工創建實體連接關係很是費力,所以如何讓計算機自動實現實體鏈指,成爲知識圖譜獲得大規模應用的重要技術前提。例如,谷歌等在搜索引擎結果頁面呈現知識圖譜時,須要該技術自動識別用戶輸入查詢詞中的實體並連接到知識圖譜的相應節點上。

實體鏈指的主要任務有兩個,實體識別(Entity Recognition)與實體消歧(Entity Disambiguation),都是天然語言處理領域的經典問題。

實體識別旨在從文本中發現命名實體,最典型的包括人名、地名、機構名等三類實體。近年來,人們開始嘗試識別更豐富的實體類型,如電影名、產品名,等等。此外,因爲知識圖譜不只涉及實體,還有大量概念(concept),所以也有研究者提出對這些概念進行識別。

不一樣環境下的同一個實體名稱可能會對應不一樣實體,例如「蘋果」可能指某種水果,某個著名IT公司,也多是一部電影。這種一詞多義或者歧義問題普 遍存在於天然語言中。將文檔中出現的名字連接到特定實體上,就是一個消歧的過程。消歧的基本思想是充分利用名字出現的上下文,分析不一樣實體可能出如今該處 的機率。例如某個文檔若是出現了iphone,那麼」蘋果「就有更高的機率指向知識圖譜中的叫」蘋果「的IT公司。

實體鏈指並不侷限於文本與實體之間,以下圖所示,還能夠包括圖像、社交媒體等數據與實體之間的關聯。能夠看到,實體鏈指是知識圖譜構建與應用的基礎核心技術。

圖4-1 實體鏈指實現實體與文本、圖像、社交媒體等數據的關聯

4.2 關係抽取(Relation Extraction)

構建知識圖譜的重要來源之一是從互聯網網頁文本中抽取實體關係。關係抽取是一種典型的信息抽取任務。

典型的開放信息抽取方法採用自舉(bootstrapping)的思想,按照「模板生成實例抽取」的流程不斷迭代直至收斂。例如,最初能夠經過 「X是Y的首都」模板抽取出(中國,首都,北京)、(美國,首都,華盛頓)等三元組實例;而後根據這些三元組中的實體對「中國-北京」和「美國-華盛頓」 能夠發現更多的匹配模板,如「Y的首都是X」、「X是Y的政治中心」等等;進而用新發現的模板抽取更多新的三元組實例,經過反覆迭代不斷抽取新的實例與模 板。這種方法直觀有效,但也面臨不少挑戰性問題,如在擴展過程當中很容易引入噪音實例與模板,出現語義漂移現象,下降抽取準確率。研究者針對這一問題提出了 不少解決方案:提出同時擴展多個互斥類別的知識,例如同時擴展人物、地點和機構,要求一個實體只能屬於一個類別;也有研究提出引入負實例來限制語義漂移。

咱們還能夠經過識別表達語義關係的短語來抽取實體間關係。例如,咱們經過句法分析,能夠從文本中發現「華爲」與「深圳」的以下關係:(華爲,總部 位於,深圳)、(華爲,總部設置於,深圳)、以及(華爲,將其總部建於,深圳)。經過這種方法抽取出的實體間關係很是豐富而自由,通常是一個以動詞爲核心 的短語。該方法的優勢是,咱們無需預先人工定義關係的種類,但這種自由度帶來的代價是,關係語義沒有歸一化,同一種關係可能會有多種不一樣的表示。例如,上 述發現的「總部位於」、「總部設置於」以及「將其總部建於」等三個關係其實是同一種關係。如何對這些自動發現的關係進行聚類規約是一個挑戰性問題。

咱們還能夠將全部關係看作分類標籤,把關係抽取轉換爲對實體對的關係分類問題。這種關係抽取方案的主要挑戰在於缺少標註語料。2009年斯坦福大 學研究者提出遠程監督(Distant Supervision)思想,使用知識圖譜中已有的三元組實例啓發式地標註訓練語料。遠程監督思想的假設是,每一個同時包含兩個實體的句子,都表述了這兩 個實體在知識庫中的對應關係。例如,根據知識圖譜中的三元組實例(蘋果,創始人,喬布斯)和(蘋果,CEO,庫克),咱們能夠將如下四個包含對應實體對的 句子分別標註爲包含「創始人」和「CEO」關係:

樣例

句子

關係/分類標籤

蘋果-喬布斯

蘋果公司的創始人是喬布斯。

創始人

蘋果-喬布斯

喬布斯創立了蘋果公司。

創始人

蘋果-庫克

蘋果公司的CEO是庫克。

CEO

蘋果-庫克

庫克如今是蘋果公司的CEO。

CEO

咱們將知識圖譜三元組中每一個實體對看作待分類樣例,將知識圖譜中實體對關係看作分類標籤。經過從出現該實體對的全部句子中抽取特徵,咱們能夠利用 機器學習分類模型(如最大熵分類器、SVM等)構建信息抽取系統。對於任何新的實體對,根據所出現該實體對的句子中抽取的特徵,咱們就能夠利用該信息抽取 系統自動判斷其關係。遠程監督可以根據知識圖譜自動構建大規模標註語料庫,所以取得了矚目的信息抽取效果。

與自舉思想面臨的挑戰相似,遠程監督方法會引入大量噪音訓練樣例,嚴重損害模型準確率。例如,對於(蘋果,創始人,喬布斯)咱們能夠從文本中匹配如下四個句子:

句子

關係/分類標籤

是否正確

蘋果公司的創始人是喬布斯。

創始人

正確

喬布斯創立了蘋果公司。

創始人

正確

喬布斯回到了蘋果公司。

創始人

錯誤

喬布斯曾擔任蘋果的CEO。

創始人

錯誤

在這四個句子中,前兩個句子的確代表蘋果與喬布斯之間的創始人關係;可是,後兩個句子則並無表達這樣的關係。很明顯,因爲遠程監督只能機械地匹 配出現實體對的句子,所以會大量引入錯誤訓練樣例。爲了解決這個問題,人們提出不少去除噪音實例的辦法,來提高遠程監督性能。例如,研究發現,一個正確訓 練實例每每位於語義一致的區域,也就是其周邊的實例應當擁有相同的關係;也有研究提出利用因子圖、矩陣分解等方法,創建數據內部的關聯關係,有效實現下降 噪音的目標。

關係抽取是知識圖譜構建的核心技術,它決定了知識圖譜中知識的規模和質量。關係抽取是知識圖譜研究的熱點問題,還有不少挑戰性問題須要解決,包括提高從高噪音的互聯網數據中抽取關係的魯棒性,擴大抽取關係的類型與抽取知識的覆蓋面,等等。

4.3 知識推理(Knowledge Reasoning)

推理能力是人類智能的重要特徵,可以從已有知識中發現隱含知識。推理每每須要相關規則的支持,例如從「配偶」+「男性」推理出「丈夫」,從「妻子的父親」推理出「岳父」,從出生日期和當前時間推理出年齡,等等。

這些規則能夠經過人們手動總結構建,但每每費時費力,人們也很難窮舉複雜關係圖譜中的全部推理規則。所以,不少人研究如何自動挖掘相關推理規則或模式。目前主要依賴關係之間的同現狀況,利用關聯挖掘技術來自動發現推理規則。

實體關係之間存在豐富的同現信息。以下圖,在康熙、雍正和乾隆三我的物之間,咱們有(康熙,父親,雍正)、(雍正,父親,乾隆)以及(康熙,祖 父,乾隆)三個實例。根據大量相似的實體X、Y、Z間出現的(X,父親,Y)、(Y,父親,Z)以及(X,祖父,Z)實例,咱們能夠統計出「父親+父 親=>祖父」的推理規則。相似的,咱們還能夠根據大量(X,首都,Y)和(X,位於,Y)實例統計出「首都=>位於」的推理規則,根據大量 (X,總統,美國)和(X,是,美國人)統計出「美國總統=>是美國人」的推理規則。

圖4-2 知識推理舉例

知識推理能夠用於發現實體間新的關係。例如,根據「父親+父親=>祖父」的推理規則,若是兩實體間存在「父親+父親」的關係路徑,咱們就能夠推理它們之間存在「祖父」的關係。利用推理規則實現關係抽取的經典方法是Path Ranking Algorithm     (Lao & Cohen 2010)    ,該方法將每種不一樣的關係路徑做爲一維特徵,經過在知識圖譜中統計大量的關係路徑構建關係分類的特徵向量,創建關係分類器進行關係抽取,取得不錯的抽取效果,成爲近年來的關係抽取的表明方法之一。但這種基於關係的同現統計的方法,面臨嚴重的數據稀疏問題。  

在知識推理方面還有不少的探索工做,例如採用謂詞邏輯(Predicate Logic)等形式化方法和馬爾科夫邏輯網絡(Markov Logic Network)等建模工具進行知識推理研究。目前來看,這方面研究仍處於百家爭鳴階段,你們在推理表示等諸多方面仍爲達成共識,將來路徑有待進一步探 索。

4.4 知識表示(Knowledge Representation)

在計算機中如何對知識圖譜進行表示與存儲,是知識圖譜構建與應用的重要課題。

如「知識圖譜」字面所表示的含義,人們每每將知識圖譜做爲複雜網絡進行存儲,這個網絡的每一個節點帶有實體標籤,而每條邊帶有關係標籤。基於這種網 絡的表示方案,知識圖譜的相關應用任務每每須要藉助於圖算法來完成。例如,當咱們嘗試計算兩實體之間的語義相關度時,咱們能夠經過它們在網絡中的最短路徑 長度來衡量,兩個實體距離越近,則越相關。而面向「梁啓超的兒子的妻子」這樣的推理查詢問題時,則能夠從「梁啓超」節點出發,經過尋找特定的關係路徑「梁 啓超->兒子->妻子->?」,來找到答案。

然而,這種基於網絡的表示方法面臨不少困難。首先,該表示方法面臨嚴重的數據稀疏問題,對於那些對外鏈接較少的實體,一些圖方法可能一籌莫展或效果不佳。此外,圖算法每每計算複雜度較高,沒法適應大規模知識圖譜的應用需求。

最近,伴隨着深度學習和表示學習的革命性發展,研究者也開始探索麪向知識圖譜的表示學習方案。其基本思想是,將知識 圖譜中的實體和關係的語義信息用低維向量表示,這種分佈式表示(Distributed Representation)方案可以極大地幫助基於網絡的表示方案。其中,最簡單有效的模型是最近提出的TransE    (Bordes, et al. 2013)    。 TransE基於實體和關係的分佈式向量表示,將每一個三元組實例(head,relation,tail)中的關係relation看作從實體head到 實體tail的翻譯,經過不斷調整h、r和t(head、relation和tail的向量),使(h + r) 儘量與 t 相等,即 h + r = t。該優化目標以下圖所示。  

圖4-3 基於分佈式表示的知識表示方案

經過TransE等模型學習獲得的實體和關係向量,可以很大程度上緩解基於網絡表示方案的稀疏性問題,應用於不少重要任務中。

首先,利用分佈式向量,咱們能夠經過歐氏距離或餘弦距離等方式,很容易地計算實體間、關係間的語義相關度。這將極大的改進開放信息抽取中實體融合和關係融合的性能。經過尋找給定實體的類似實體,還可用於查詢擴展和查詢理解等應用。

其次,知識表示向量能夠用於關係抽取。以TransE爲例,因爲咱們的優化目標是讓 h + r = t,所以,當給定兩個實體 h 和 t 的時候,咱們能夠經過尋找與 t - h 最類似的 r,來尋找兩實體間的關係。    (Bordes, et al. 2013)    中 的實驗證實,該方法的抽取性能較高。並且咱們能夠發現,該方法僅須要知識圖譜做爲訓練數據,不須要外部的文本數據,所以這又稱爲知識圖譜補全 (Knowledge Graph Completion),與複雜網絡中的連接預測(Link Prediction)相似,可是要複雜得多,由於在知識圖譜中每一個節點和連邊上都有標籤(標記實體名和關係名)。  

最後,知識表示向量還能夠用於發現關係間的推理規則。例如,對於大量X、Y、Z間出現的(X,父親,Y)、(Y,父親,Z)以及(X,祖父,Z) 實例,咱們在TransE中會學習X+父親=Y,Y+父親=Z,以及X+祖父=Z等目標。根據前兩個等式,咱們很容易獲得X+父親+父親=Z,與第三個公 式相比,就可以獲得「父親+父親=>祖父」的推理規則。前面咱們介紹過,基於關係的同現統計學習推理規則的思想,存在嚴重的數據稀疏問題。若是利用 關係向量表示提供輔助,能夠顯著緩解稀疏問題。

5 前景與挑戰

若是將來的智能機器擁有一個大腦,知識圖譜就是這個大腦中的知識庫,對於大數據智能具備重要意義,將對天然語言處理、信息檢索和人工智能等領域產生深遠影響。

如今以商業搜索引擎公司爲首的互聯網巨頭已經意識到知識圖譜的戰略意義,紛紛投入重兵佈局知識圖譜,並對搜索引擎形態日益產生重要的影響。同時, 咱們也強烈地感覺到,知識圖譜還處於發展初期,大多數商業知識圖譜的應用場景很是有限,例如搜狗知立方更多聚焦在娛樂和健康等領域。根據各搜索引擎公司提 供的報告來看,爲了保證知識圖譜的準確率,仍然須要在知識圖譜構建過程當中採用較多的人工干預。

能夠看到,在將來的一段時間內,知識圖譜將是大數據智能的前沿研究問題,有不少重要的開放性問題亟待學術界和產業界合力解決。咱們認爲,將來知識圖譜研究有如下幾個重要挑戰。

  1. 知識類型與表示。知識圖譜主要採用(實體1,關係,實 體2)三元組的形式來表示知識,這種方法能夠較好的表示不少事實性知識。然而,人類知識類型多樣,面對不少複雜知識,三元組就一籌莫展了。例如,人們的購 物記錄信息,新聞事件等,包含大量實體及其之間的複雜關係,更不用說人類大量的涉及主觀感覺、主觀情感和模糊的知識了。有不少學者針對不一樣場景設計不一樣的 知識表示方法。知識表示是知識圖譜構建與應用的基礎,如何合理設計表示方案,更好地涵蓋人類不一樣類型的知識,是知識圖譜的重要研究問題。最近認知領域關於 人類知識類型的探索    (Tenenbaum, et al. 2011)    也許會對知識表示研究有必定啓發做用。

  2. 知識獲取。如何從互聯網大數據萃取知識,是構建知識圖譜的重要問題。目前已經提出各類知識獲取方案,並已經成功抽取大量有用的知識。但在抽取知識的準確率、覆蓋率和效率等方面,都仍不如人意,有極大的提高空間。

  3. 知識融合。來自不一樣數據的抽取知識可能存在大量噪音和冗餘,或者使用了不一樣的語言。如何將這些知識有機融合起來,創建更大規模的知識圖譜,是實現大數據智能的必由之路。

  4. 知識應用。目前大規模知識圖譜的應用場景和方式還比較有限,如何有效實現知識圖譜的 應用,利用知識圖譜實現深度知識推理,提升大規模知識圖譜計算效率,須要人們不斷銳意發掘用戶需求,探索更重要的應用場景,提出新的應用算法。這既須要豐 富的知識圖譜技術積累,也須要對人類需求的敏銳感知,找到合適的應用之道。

6 內容回顧與推薦閱讀

本章系統地介紹了知識圖譜的產生背景、數據來源、應用場景和主要技術。經過本章咱們主要有如下結論:

  • 知識圖譜是下一代搜索引擎、自動問答等智能應用的基礎設施。

  • 互聯網大數據是知識圖譜的重要數據來源。

  • 知識表示是知識圖譜構建與應用的基礎技術。

  • 實體鏈指、關係抽取和知識推理是知識圖譜構建與應用的核心技術。

    知識圖譜與本體(Ontology)和語義網(Semantic Web)等密切相關,有興趣的讀者能夠搜索與之相關的文獻閱讀。知識表示(Knowledge Representation)是人工智能的重要課題,讀者能夠經過人工智能專著

           (Russell & Norvig 2009)       瞭解其發展歷程。在關係抽取方面,讀者能夠閱讀        (Nauseates, et al. 2013)       、        (Nickel, et al. 2015)       詳細瞭解相關技術。    

相關文章
相關標籤/搜索