知識圖譜的發展概述

筆者:本文爲原創文章,供天然語言處理研究人員,尤爲知識圖譜領域的學者參考,若有錯誤理解之處請指出,不勝感激!(如需轉載,請聯繫本人:jtianwen2014,並註明出處)。另,本文最初發布在微信公衆號「哈工大SCIR」,原文連接html

「知識圖譜(Knowledge Graph)」的概念是由Google公司在2012年提出的[1],指代其用於提高搜索引擎性能的知識庫。同近年來學者的習慣,本文借用此概念泛指早期至於現在的知識庫項目,而非特指Google的知識圖譜項目。知識圖譜的出現是人工智能對知識需求所致使的必然結果,但其發展又得益於不少其餘的研究領域,涉及專家系統語言學語義網數據庫,以及信息抽取等衆多領域,是交叉融合的產物而非一脈相承。ios

知識圖譜的早期發展

早在上個世紀70年代,專家系統(Expert Systems)做爲人工智能的重要分支,是指利用知識和推理過程來解決那些藉助人類專家知識才能得已解決的問題的計算機程序[2]。八十年代,專家系統的發展激增,日本的五代機項目就是在這期間開始的,專家系統是其核心部分。專家系統通常由兩部分組成:知識庫與推理引擎。人類專家提供知識,再將這種顯式的知識映射並存儲到知識庫中用來推理。web

Cyc是這一期間較爲出色的項目[3],由Douglas Lenat在1984年設立,旨在收集生活中常識知識並將其編碼集成到一個全面的本體知識庫。Cyc知識庫中的知識使用專門設計的CycL進行表示。同其餘專家系統同樣,Cyc不只包括知識,並且提供了很是多的推理引擎,支持演繹推理和概括推理。目前Cyc知識庫涉及50萬條概念的500萬條常識知識。OpenCyc是其開放出來免費供大衆使用的部分知識,包括24萬條概念的約240萬條常識知識。數據庫

對詞彙的理解是解讀天然語言的關鍵,語言學家所創造的詞典爲人類而非機器的閱讀提供了便利,雖然有電子詞典的存在,但機器仍沒法很好的從中獲取詞彙含義。1985年,普林斯頓大學認識科學實驗室在心理學教授喬治·A·米勒的指導下開始創建和維護名爲WordNet的英語字典[4],旨在爲詞典信息和現代計算提供更加有效的結合,爲計算機程序提供可讀性較強的在線詞彙數據庫。在WordNet中,名詞、動詞、形容詞以及副詞被按照認知上的同義詞分組,稱爲synsets,每個synset表徵一個肯定的概念。synset之間經過概念語義以及詞彙關係連接。在漢語中,相似的典型表明有《同義詞詞林》[15]及其擴展版[16]、知網(HowNet)[17]等,都是從語言學的角度,以概念爲最基本的語義單元構建起來的能夠被計算機處理的漢語詞典。微信

這些早期的知識圖譜都是利用相關領域專家進行人工構建,具備很高的準確率和利用價值,可是其構建過程耗時耗力並且存在覆蓋性較低的問題。網絡

連接數據與基於百科知識的知識圖譜構建

1989年萬維網的出現,爲知識的獲取提供了極大的方便,1998年,萬維網之父蒂姆·伯納斯·李再次提出語義網(Semantic Web),其初衷是讓機器也同人類同樣能夠很好地獲取並使用知識[5,6,7]。不一樣於人工智能中訓練機器使之擁有和人類同樣的認知能力,語義網直接向機器提供可直接用於程序處理的知識表示[5]。但語義網是一個較爲宏觀的設想而且其設計模型是「自頂向下」的,致使其很難落地,學者們逐漸將焦點轉向數據自己。2006年,伯納斯·李提出連接數據(Linked Data)的概念,鼓勵你們將數據公開並遵循必定的原則(2006年提出4條原則,2009年精簡爲3條原則)將其發佈在互聯網中[8,9],連接數據的宗旨是但願數據不只僅發佈於語義網中,而須要創建起數據之間的連接從而造成一張巨大的連接數據網。其中,最具表明性的當屬2007年開始運行的DBpedia項目[10],是目前已知的第一個大規模開放域連接數據。app

DBpdia項目最初是由柏林自由大學和萊比錫大學的學者發起的,其初衷是緩解語義網當時面臨的窘境,第一份公開數據集在2007年時發佈,經過自由受權的方式容許他人使用。Leipzig等學者[10]認爲在大規模網絡信息的環境下傳統「自上而下」地在數據以前設計本體是不切實際的,數據及其元數據應當隨着信息的增長而不斷完善。數據的增長和完善能夠經過社區成員合做的方式進行,但這種方式涉及數據的一致性、不肯定性,以及隱式知識的統一表示等諸多問題。Leipzig等人[10]認爲探尋這些問題最首要並高效的方式就是提供一個內容豐富的多元數據語料,有了這樣的語料即可以極大推進諸如知識推理、數據的不肯定管理技術,以及開發面向語義網的運營系統。朝着連接數據的構想,DBpedia知識庫利用語義網技術,如資源描述框架(RDF)[18],與衆多知識庫(如WordNet、Cyc等)創建連接關係,構建了一個規模巨大的連接數據網絡。框架

2001年,一個名爲維基百科(Wikipedia)的全球性多語言百科全書協做計劃開啓[11],其宗旨是爲全人類提供自由的百科全書,在短短几年的時間裏利用全球用戶的協做完成數十萬詞條(至今擁有上百萬詞條)知識。維基百科的出現推進了不少基於維基百科的結構化知識的知識庫的構建,DBpedia[10]、Yago[12]等都屬於這一類知識庫。機器學習

Yago是由德國馬普研究所於2007年開始的項目,針對當時的應用僅使用單一源背景知識的狀況,創建了一個高質量、高覆蓋的多源背景知識的知識庫。前面介紹的專家構建的WordNet擁有極高的準確率的本體知識,但知識覆蓋度僅限於一些常見的概念或實體;相比之下,維基百科蘊含豐富的實體知識,但維基百科多提供的概念的層次結構相似標籤結構並不精確,直接用於本體構建並不適合。Yago的主要思路是將WordNet與維基百科兩者的知識結合,即利用WordNet的本體知識補充維基百科中實體的上位詞知識,從而獲取大規模高質量、高覆蓋的知識庫。截至目前,Yago擁有超過1千萬實體的1.2億條事實知識,同時近些年也構建起了與其餘知識庫的連接關係。ide

DBpedia主要經過社區成員來定義和撰寫準確的抽取模版,從維基百科中抽取結構化信息(如,infobox)構建大規模知識庫,另外本體(即知識庫的元數據、schema)的構建也是經過社區成員合做完成的。因爲維基百科是社區撰寫,其知識表達不免有不一致的狀況,DBpedia利用mapping技術與抽取模版來實現知識描述的統一與一致性。另外,爲了實現知識的更新與擴增,DBpedia開發DBpediaLive來保持與維基百科的同步。在2016年發行的版本中,DBpedia擁有超過6百萬實體及其數十億事實知識,其中人工構建的本體庫包含760種類別信息。同時,DBpedia擁有大量的跨語言知識,共擁有除英語外的66億其餘語言事實知識。

2007年,Freebase[13]開始構建,相似維基百科,其內容主要來自其社區成員的貢獻,但與維基百科最大的不一樣之處在於Freebase中都是結構化的知識,在維基百科中人們編輯的是文章,而在Freebase中編輯的是知識。在Freebase中,用戶是其主要核心,除了對實體的編輯,用戶也參與本體庫的構建、知識的校對,以及與其餘知識庫的連接工做。除人工輸入知識,Freebase也主動導入知識,如維基百科的結構化知識。Freebase擁有大約2千萬實體,目前被Google公司收購,Freebase的API服務已經關閉但仍提供數據的下載。

2012年,考慮到維基百科中大部分的知識都是非結構組織起來的,帶來諸多問題(如:沒法對知識進行有效的搜索與分析,進而知識沒法獲得很好的重用,甚至存在知識的不一致性的現象),維基媒體基金會推出Wikidata項目[14],一個相似於Freebase的大規模社區成員合做知識哭,旨在用一種全新的方式管理知識以克服以上的存在於維基百科中的問題。

以上所介紹的知識圖譜都是基於英文語言的,即便是多語言知識圖譜也是以英文爲主語言,其餘語言知識是用過跨語言知識(如,語言間連接(ILLs)、三元組對齊(TWA))連接獲得。近些年,國內推出了大量以中文爲主語言的知識圖譜,它們主要都是基於百度百科和維基百科的結構化信息構建起來的。如上海交通大學的zhishi.me[19]、清華大學的XLore[20]、復旦大學的CN-pedia[21]。2017年,由國內多所高校發起cnSchema.org項目[23],旨在利用社區力量維護開放域知識圖譜的Schema標準。

基於自由文本的開放域知識圖譜構建

上述介紹的知識圖譜的構建方式包括人工編輯和自動抽取,但自動抽取方法主要是基於在線百科中結構化信息而忽略了非結構化文本,而互聯網中大部分的信息偏偏是以非結構化的自由文本形式呈現。與連接數據發展的同期,不少基於信息抽取技術的知識獲取方法被提出,用以構建基於自由文本的開放域知識圖譜。

2007年,華盛頓大學Banko等人[24]率先提出開放域信息抽取(OIE),直接從大規模自由文本中直接抽取實體關係三元組,即頭實體、關係指示詞,以及尾實體三部分,相似於語義網中RDF規範的SPO結構。在OIE提出以前,也有不少面向自由文本的信息抽取被提出,但這些方法主要的思路都是爲每一個目標關係訓練相應的抽取器。這類傳統的信息抽取方法在面對互聯網文本中海量的關係類別時沒法高效工做,即爲每一個目標關係訓練抽取器時不現實的,更爲嚴重的是不少狀況下面對海量的網絡文本咱們沒法事先明確關係的類型。OIE經過直接識別關係詞組(relation phrases)也稱關係指示詞,即顯式表證明體關係的詞組,來抽取實體關係。基於OIE的指導思想,華盛頓大學陸續推出TextRunner[24]、Reverb[25]、OLLIE[26]等基於自由文本的開放域三元組抽取系統;以及卡耐基梅隆大學的NELL系統[27,29]、德國馬普研究中心的PATTY等[28]。這些系統有的須要自動構造標註的訓練語料,進而從中提取關係模版或訓練分類器;有的則依據語法或句法特徵直接從分析結果中抽取關係三元組。接下來,本文將簡要介紹下具備表明性的Reverb和NELL系統的實現思想。

Reverb針對以前的OIE系統中存在的兩個問題:不連貫抽取信息缺失抽取,提出句法約束:對於多詞語關係詞組,必須以動詞開頭、以介詞結束,而且是由句子中毗鄰的單詞組成。該約束能夠有效緩解以上兩個問題形成的抽取失敗。進一步,爲了不由句法約束帶來的冗長的而且過於明確的關係指示詞,Reverb引入了啓發式的詞法約束。總的來講,Reverb提出了兩個簡單卻高效的約束,在面向英文自由文本的開放域知識抽取中取得了不錯的效果,很具啓發意義。

never-ending learning 被定義爲是一種不一樣於傳統的機器學習方式[29],經過不斷地閱讀獲取知識,並不斷提高學習知識的能力以及利用所學知識進行推理等邏輯思惟。NELL就是一種這樣的智能體,其任務是學習如何閱讀網頁以獲取知識。NELL的輸入有:

  • 定義了類別和二元關係的初始本體庫;
  • 對於每一個類別和關係的訓練種子數據;
  • 網頁數據(從預先準備好的網頁集合中獲取、天天從Google搜索API獲取);
  • 偶爾的人工干預,

NELL天天24小時不停歇的進行以下操做:

  • 從網頁中閱讀(抽取)知識事實用以填充知識庫,並移除以前存在於知識庫中不正確知識事實,每一個知識具備必定的置信度以及參考來源;
  • 學習如何比前一天更好地閱讀(抽取)知識事實,

NELL從2010年1月開始進行上述閱讀過程,目前所產生的知識庫已經擁有超過8千萬的相互連接的事實,以及上百萬學習到的短語。

自動構建的開放域中文實體知識圖譜——《大詞林》

上述所介紹的OIE系統大多專一於對開放域實體關係三元組的抽取,但忽略了對於知識圖譜不可或缺的同時也是相當重要的本體庫的構建,即知識圖譜元數據或稱爲Schema的構建,是爲三元組賦以語義的關鍵。2014年,由哈爾濱工業大學社會計算與信息檢索研究中心發起的《大詞林》項目,面向包括自由文本的多信息源對實體的類別信息進行自動抽取並層次化,進而實現對實體上下位關係體系的自動構建,而上下位關係體系正是本體庫的核心組成之一。

《大詞林》的構建不須要領域專家的參與,而是基於多信息源自動獲取實體類別並對可能的多個類別進行層次化,從而達到知識庫自動構建的效果。同時也正是因爲《大詞林》具備自動構建能力,其數據規模能夠隨着互聯網中實體詞的更新而擴大,很好地解決了以往的人工構建知識庫對開放域實體的覆蓋程度極爲有限的問題。

另外,相比以往的類別體系知識庫,《大詞林》中類別體系的結構也更加靈活。如《同義詞詞林(擴展版)》中每一個實體具備具有五層結構,其中第四層僅有代碼表示,其他四層由代碼和詞語表示,而《大詞林》中類別體系結構的層數不固定,依據實體詞的不一樣而動態變化,如「哈工大」一詞有7層之多,而「中國」一詞有4層;另外,《大詞林》中的每一層都是用類別詞或實體詞表示。

自2014年11月27日上線,《大詞林》不斷添加中文實體及其層次化類別信息,自動構建開放域實體知識庫。目前,《大詞林》中包括約900萬實體、約17萬類別;平均每一個命名實體有1.77個不一樣粒度的優質類別;上下位關係超過1千萬對,其中實體與上位詞之間的上下位關係與上位詞之間的上下位關係準確率均達到90%以上。

《大詞林》系統網站支持用戶查詢任意實體,並以有向圖的形式展示實體的層次化類別,同時支持以目錄方式供用戶瀏覽部分公開的知識庫。人工智能中關鍵的一步是知識的獲取與構建,《大詞林》做爲基於上下位關係的中文知識庫,隨着互聯網中實體詞的增長不斷擴充其數據規模,並即將加入實體間關係、實體屬性等網狀關係結構,這對於基於知識庫的智能系統無疑是一筆巨大的寶藏。

參考文獻

[1] Singhal A. Introducing the knowledge graph: things, not strings[J]. Official google blog, 2012.

[2] Feigenbaum E A. Expert systems in the 1980s[J]. State of the art report on machine intelligence. Maidenhead: Pergamon-Infotech, 1981.

[3] Lenat D B, Prakash M, Shepherd M. CYC: Using common sense knowledge to overcome brittleness and knowledge acquisition bottlenecks[J]. AI magazine, 1985, 6(4): 65.

[4] Miller G A. WordNet: a dictionary browser[J]. Information in Data, 1985: 25-28.

[5] Berners-Lee T. Semantic web road map[J]. 1998.

[6] Berners-Lee T, Hendler J, Lassila O. The semantic web[J]. Scientific american, 2001, 284(5): 28-37.

[7] Shadbolt N, Berners-Lee T, Hall W. The semantic web revisited[J]. IEEE intelligent systems, 2006, 21(3): 96-101.

[8] Berners-Lee T. Linked data-design issues[J]. http://www. w3. org/DesignIssues/LinkedData. html, 2006.

[9] Berners-Lee T. The next web[J]. TED. com, 2009.

[10] Auer S, Bizer C, Kobilarov G, et al. Dbpedia: A nucleus for a web of open data[J]. The semantic web, 2007: 722-735.

[11] Wales J, Sanger L. Wikipedia: The free encyclopedia[J]. Accessed via http://en. wikipedia. org/wiki/Main_Page (27 November 2011), 2001.

[12] Suchanek F M, Kasneci G, Weikum G. Yago: a core of semantic knowledge[C]//Proceedings of the 16th international conference on World Wide Web. ACM, 2007: 697-706.

[13] Bollacker K, Cook R, Tufts P. Freebase: A shared database of structured general human knowledge[C]//AAAI. 2007, 7: 1962-1963.

[14] Vrandečić D. Wikidata: a new platform for collaborative data collection[C]//Proceedings of the 21st International Conference on World Wide Web. ACM, 2012: 1063-1064.

[15] 梅家駒. 同義詞詞林[M]. 上海辭書出版社, 1983.

[16] 《同義詞詞林(擴展版)》:https://www.ltp-cloud.com/download/

[17] 董振東, 董強. 知網簡介[J]. 1999-09-23.[2004-03-06]. http://www. keenage. com, 1999.

[18] Swick R R. Resource Description Framework (RDF) Model and Syntax Specification W3C Recommendation[J]. W3c Recommendation World Wide Web Consortium, 1999.

[19] Niu, X.; Sun, X.; Wang, H.; Rong, S.; Qi, G.; and Yu, Y. 2011. Zhishi. me-weaving chinese linking open data. The Semantic Web–ISWC 2011 205–220.

[20] Wang, Z.; Li, J.; Wang, Z.; Li, S.; Li, M.; Zhang, D.; Shi, Y.; Liu, Y.; Zhang, P.; and Tang, J. 2013. Xlore: A large- scale english-chinese bilingual knowledge graph. In Pro- ceedings of the 2013th International Conference on Posters & Demonstrations Track-Volume 1035, 121–124. CEUR- WS. org.

[21] Xu, B.; Xu, Y.; Liang, J.; Xie, C.; Liang, B.; Cui, W.; and Xiao, Y. 2017. Cn-dbpedia: A never-ending chinese knowl- edge extraction system. In International Conference on In- dustrial, Engineering and Other Applications of Applied In- telligent Systems, 428–438. Springer.

[22] 《大詞林》項目官網:http://www.bigcilin.com

[23] cnSchema官網:http://cnschema.org

[24] Michele Banko, Michael J Cafarella, Stephen Soderland, Matthew Broadhead, and Oren Etzioni. Open information extraction from the web. In IJCAI, volume 7, pages 2670– 2676, 2007.

[25] Anthony Fader, Stephen Soderland, and Oren Etzioni. Identifying relations for open information extraction. In Proceedings of the Conference on Empirical Methods in Natural Language Processing, pages 1535–1545. Association for Computational Linguistics, 2011.

[26] Michael Schmitz, Robert Bart, Stephen Soderland, Oren Etzioni, et al. Open language learning for information extraction. In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, pages 523–534. Association for Computational Linguistics, 2012.

[27] Andrew Carlson, Justin Betteridge, Bryan Kisiel, Burr Settles, Estevam R Hruschka Jr, and Tom M Mitchell. Toward an architecture for never-ending language learning. In AAAI, volume 5, page 3, 2010.

[28] Ndapandula Nakashole, Gerhard Weikum, and Fabian Suchanek. Patty: a taxonomy of relational patterns with semantic types. In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, pages 1135–1145. Association for Computational Linguistics, 2012.

[29] T. Mitchell, W. Cohen, E. Hruschka, P. Talukdar, J. Betteridge, A. Carlson, B. Dalvi, M. Gardner, B. Kisiel, J. Krishnamurthy, N. Lao, K. Mazaitis, T. Mohamed, N. Nakashole, E. Platanios, A. Ritter, M. Samadi, B. Settles, R. Wang, D. Wijaya, A. Gupta, X. Chen, A. Saparov, M. Greaves, J. Welling. In Proceedings of the Conference on Artificial Intelligence (AAAI), 2015.

相關文章
相關標籤/搜索