知識圖譜基礎概念

時間 2019-11-08

標籤知識圖譜基礎概念简体版

原文原文鏈接

0. AI爲何須要知識圖譜？

人工智能分爲三個階段，從機器智能到感知智能，再到認知智能。html

機器智能更多強調這些機器的運算的能力，大規模的集羣的處理能力，GPU的處理的能力。web

在這個基礎之上會有感知智能，感知智能就是語音識別、圖像識別，從圖片裏面識別出一個貓，識別人臉，是感知智能。感知智能並不是人類所特有，動物也會有這樣的一些感知智能。數據庫

再往上一層的認知智能，是人類所特有的，是創建在思考的基礎之上的，認知的創建是須要思考的能力，而思考是創建在知識的基礎之上，必須有知識的基礎、有一些常識，才能創建一些思考，造成一個推理機制。網絡

AI須要從感知智能邁向認知智能，本質上知識是一個基礎，而後基於知識的推理，恰好知識圖譜實際上是具有這樣的一個屬性。數據結構

1. 知識圖譜發展歷史與基本概念

知識圖譜本質上是一種大型的語義網絡，它旨在描述客觀世界的概念實體事件以及及其之間的關係。以實體概念爲節點，以關係爲邊，提供一種從關係的視角來看世界。框架

深度學習是這個階段大數據、人工智能火爆的緣由，雖然深度學習的表示學習能力可以得到事物的底層空間特徵，但這些特徵是經過一個黑夾子得到，而且是一個連續的向量，人類根本沒法理解，人類只能理解語義的場景。而知識圖譜正是爲深度學習和語義空間提供了鏈接，彌補了其中的溝鴻。學習

1.1 語義網絡（Semantic Network）

語義網絡能夠理解爲，現存的詞彙都是能夠串聯起來的。用相互鏈接的節點和邊來表示知識。節點表示對象、概念，邊表示節點之間的關係。大數據

語義網絡的優勢：搜索引擎

容易理解和展現。人工智能
相關概念容易聚類。

語義網絡的缺點：

節點和邊的值沒有標準，徹底是由用戶本身定義。
多源數據融合比較困難，由於沒有標準。
沒法區分概念節點和對象節點。
沒法對節點和邊的標籤(label，我理解是schema層，後面會介紹)進行定義。

簡而言之，語義網絡能夠比較容易地讓咱們理解語義和語義關係。其表達形式簡單直白，符合天然。然而，因爲缺乏標準，其比較難應用於實踐。看過上一篇文章的讀者可能已經發現，RDF的提出解決了語義網絡的缺點1和缺點2，在節點和邊的取值上作了約束，制定了統一標準，爲多源數據的融合提供了便利。

1.2 Ontology本體

Ontology：一般翻譯爲「本體」。本體自己是個哲學名詞。在上個世紀80年代，人工智能研究人員將這一律念引入了計算機領域。Tom Gruber把本體定義爲「概念和關係的形式化描述」【4】。通俗點講，==本體類似於數據庫中的Schema==，好比足球領域，主要用來定義類和關係，以及類層次和關係層次等。OWL是最經常使用的本體描述語言。本體一般被用來爲知識圖譜定義Schema。

1.3 The Semantic Web 語義網

語義互聯網的核心內涵是：Web不只僅要經過超連接把文本頁面連接起來，還應該==把事物連接起來，使得搜索引擎能夠直接對事物進行搜索==，而不只僅是對網頁進行搜索。谷歌知識圖譜是語義互聯網這一理念的商業化實現。也能夠把語義互聯網看作是一個基於互聯網共同構建的全球知識庫。

在萬維網誕生之初，網絡上的內容只是人類可讀，而計算機沒法理解和處理。好比，咱們瀏覽一個網頁，咱們可以輕鬆理解網頁上面的內容，而計算機只知道這是一個網頁。網頁裏面有圖片，有連接，可是計算機並不知道圖片是關於什麼的，也不清楚連接指向的頁面和當前頁面有何關係。==語義網正是爲了使得網絡上的數據變得機器可讀而提出的一個通用框架。==「Semantic」就是用更豐富的方式來表達數據背後的含義，讓機器可以理解數據。「Web」則是但願這些數據相互連接，組成一個龐大的信息網絡，正如互聯網中相互連接的網頁，只不過基本單位變爲粒度更小的數據，以下圖。

1.4 連接數據Linked Data

Tim Berners Lee於2006年提出，是爲了強調語義互聯網的目的是要==創建數據之間的連接==，而非僅僅是把結構化的數據發佈到網上。他爲創建數據之間的連接制定了四個原則【2】。從理念上講，連接數據最接近於知識圖譜的概念。但不少商業知識圖譜的具體實現並不必定徹底遵循Tim所提出的那四個原則。

連接數據起初是用於定義如何利用語義網技術在網上發佈數據，其強調在不一樣的數據集間建立連接。Tim Berners Lee提出了發佈數據的四個原則，並根據數據集的開放程度將其劃分爲1到5星5個層次。連接數據也被當作是語義網技術一個更簡潔，簡單的描述。當它指語義網技術時，它更強調「Web」，弱化了「Semantic」的部分。對應到語義網技術棧，它傾向於==使用RDF和SPARQL（RDF查詢語言）技術==，對於Schema層的技術，RDFS或者OWL，則不多使用。連接數據應該是最接近知識圖譜的一個概念，從某種角度說，知識圖譜是對連接數據這個概念的進一步包裝。

語義網和連接數據是萬維網之父Tim Berners Lee分別在1998年和2006提出的。相對於語義網絡，語義網和連接數據傾向於描述萬維網中資源、數據之間的關係。

1.5 RDF，RDFS與OWL

RDF(Resource Description Framework)，即資源描述框架，其本質是一個數據模型（Data Model）。它提供了一個統一的標準，用於描述實體/資源。簡單來講，就是表示事物的一種方法和手段。

RDF由節點和邊組成，節點表示實體/資源、屬性，邊則表示了實體和實體之間的關係以及實體和屬性的關係。

1.6 圖數據庫

https://zhuanlan.zhihu.com/p/42351039

2. 分類

2.1 Common Sense Knowledge Graph（常識知識圖譜）

對於 Common Sense Knowledge Graph，通常而言咱們比較在意的 Relation 包括 isA Relation、isPropertyOf Relation。

2.2 百科全書式知識圖譜（Encyclopedia Knowledge Graph

對於 Encyclopedia Knowledge Graph，一般咱們會預約義一些謂詞，好比說 DayOfbirth、LocatedIn、SpouseOf 等等。

對於 Common Sense Knowledge Graph 一般帶有必定的機率，可是 Encyclopedia Knowledge Graph 一般就是「非黑即白」，那麼構建這種知識圖譜時，咱們在意的就是 Precision（準確率）。

Common Sense Knowledge Graph 比較有表明性的工做包括 WordNet、KnowItAll、NELL 以及 Microsoft Concept Graph。而 Encyclopedia Knowledge Graph 則有 Freepase、Yago、Google Knowledge Graph 以及正在構建中的「美團大腦」。

3. 開源知識圖譜

當前世界範圍內知名的高質量大規模開放知識圖譜，包括

DBpedia[85][86]、
Yago[87][88]、
Wikidata[89]、
BabelNet[90][91]、
ConceptNet[92][93]
Microsoft Concept Graph[94][95]

另外還有中文開放知識圖譜平臺 OpenKG。

3.1 OpenKG

中文開放知識圖譜聯盟 OpenKG旨在推進中文知識圖譜的開放與互聯，推進知識圖譜技術在中國的普及與應用，爲中國人工智能的發展以及創新創業作出貢獻。聯盟已經搭建有OpenKG.CN技術平臺（圖5），目前已有35家機構入駐。吸引了國內最著名知識圖譜資源的加入，如 Zhishi.me， CN-DBPedia,PKUBase。並已經包含了來自於常識、醫療、金融、城市、出行等 15 個類目的開放知識圖譜。