知識圖譜應用如圖所示,目前各大互聯網公司已落地多個知識圖譜產品,或者正在積極構建知識圖譜,圖譜技術成爲「兵家必爭」之地。
html
知識圖譜(Knowledge Graph)的概念由谷 歌 2012 年正式提出,旨在實現更智能的搜索引擎,而且於 2013 年之後開始在學術界和業界普及,並在智能問答、情報分析、反欺詐等應用 中發揮重要做用。數據庫
知識圖譜以語義網( Semantic Web) 和領域本體( Ontology) 爲其關鍵技術的大規模語義網絡知識庫。
Knowledge Graph是結構化的語義知識庫,用於以符號形式描述物理世界中的概念及其相互關係。其基本組成單位是「實體-關係-實體」三元組,以及實體及其相關屬性-值對,實體間經過關係相互聯結,構成網狀的知識結構。Knowledge Graph本質是以語義三元組爲基礎的結構化的海量知識庫。網絡
知識圖譜的定義讓人不明覺厲,那實際構建的知識圖譜是什麼樣子?dom
領域術語集合。本體最爲抽象,簡單理解就是一堆概念,這堆概念集合可以描述某個具體的domain裏的一切事物的共有特徵,而後概念間又有必定的關係,全部構成一個具備層級特徵的結構。因此在語義網裏ontology和schema基本不分家。搜索引擎
在上面知識圖譜的例子中,本體是足球領域schema.net
具備相同特色或屬性的實體集合的抽象,如足球球員、足球聯賽、足球教練等。3d
實體就是type的實例,如足球球員--梅西,足球聯賽--西甲等。htm
實體與實體之間經過關係關聯起來,如梅西是巴塞羅那的球員。blog
實體自帶信息是屬性,如梅西 出生日期 1987年6月24日, 身高 1.7米等。索引
圖狀具備關聯性的知識集合。能夠由三元組(實體entity,實體關係relation,實體entity)表示。
這幅圖描述了知識圖譜中的概念之間的關係。
知識庫(Knowledge Base),就是一個知識數據庫,包含了知識的本體和知識。Freebase是一個知識庫(結構化),維基百科也能夠當作一個知識庫(半結構化),等等。知識圖譜能夠當作是由圖數據庫存儲的知識庫。
工業界的特色是它有細分的領域,有良好的業務模型,有大量的數據沉澱。他們一開始先構建Schema,數據有一部分來自於結構化數據,另外須要從半結構化、非結構化數據中獲取知識。轉轉的知識圖譜物品詞庫的構建,大部分數據來自 自有的結構化數據。
知識圖譜自己就是圖狀的知識,關鍵就是知識獲取,獲取圖中的元素:點、邊,即抽取實體、關係。
知識圖譜構建流程
知識圖譜技術
學術界是先抽取實體、關係,而後在這些數據的基礎上進行本體抽取,並且難度比較大,涉及大量本體構建的工做。
本體的構建大致有兩種方式:自頂向下和自底向上。
開放域知識圖譜的本體構建一般用自底向上的方法,自動地從知識圖譜中抽取概念、概念層次和概念之間的關係。這也很好理解,開放的世界太過複雜,用自頂向下的方法沒法考慮周全,且隨着世界變化,對應的概念還在增加。 其中最典型就是Google的Knowledge Vault。
領域知識圖譜多采用自頂向下的方法來構建本體。一方面,相對於開放域知識圖譜,領域知識圖譜涉及的概念和範圍都是固定或者可控的;另外一方面,對於領域知識圖譜,咱們要求其知足較高的精度。如今你們接觸到的一些語音助手背後對接的知識圖譜大多都是領域知識圖譜,好比音樂知識圖譜、體育知識圖譜、烹飪知識圖譜等等。正由於是這些領域知識圖譜來知足用戶的大多數需求,更須要保證其精度。自頂向下是先爲知識圖譜定義好本體與數據模式,再將實體加入到知識庫。該構建方式須要利用一些現有的結構化知識庫做爲其基礎知識庫,例如Freebase項目就是採用這種方式,它的絕大部分數據是從維基百科中獲得的。
學術界的本體構建通常採用自底向下,工業界通常採用自頂向下的方式構建。
知識圖譜的不少構建細節,在後續的文章中再詳細展現。