知識圖譜構建

知識圖譜構建

知識圖譜由實體、實體的屬性描述以及實體和實體之間的關聯構成。儘管其對於大數據人工智能的實現意義非凡,但其構造過程卻極爲困難。在早期,知識圖譜構建單純依賴於人類專家。在這一方法中,知識圖譜中的實體、實體屬性與實體關聯關係徹底由專家人工構造,此類知識圖譜包括WordNet[2]、CyC[3]等。WordNet定義了詞彙之間的特定語義關係,包含約15萬個詞彙、20萬個詞彙語義對;CyC 包含了320萬條人工定義的斷言,涉及30萬個概念、1.5萬個謂詞。隨着互聯網興起,雖然依靠專家進行知識圖譜構建能得到精度較高的知識,但其規模、構建的速度,以及構建成本已經徹底沒法適應大數據時代發掘大量涌現知識的需求。爲此基於數據驅動的自動知識圖譜構建方法,逐漸成爲國際知識圖譜研究的主要方向。網絡

目前,國際上主流的知識圖譜構建方法根據其知識來源與頂層概念設計理念可大體分爲如下四大類。less

1. 基於 Wikipedia infoboxes 等結構化數據的構建方法

這一方法以百科做爲知識的主要來源,抽取百科詞條做爲實體,利用詞條中的infobox來填充實體的屬性,其主要表明如YAGO[4-6]、DBpedia[7-8]和Freebase[9]等。此類構建方法的特色是質量較高,但更新較慢。大數據

2. 基於開放文檔構建 (schemaless)

這一方法以互聯網開放網頁文檔做爲知識的主要來源,其基本假定爲,若是已知兩個實體存在特定的語義關係,那麼包含實體對的句子在某種程度上就存在表徵兩者語義關係的做用。因而可利用天然語言處理技術,從非結構化的文本中抽取名詞短語做爲實體、動詞短語做爲謂詞,經過共現關聯與句法分析發現實體之間的關係。其主要表明系統如Reverb[10]、OLLIE[11]和Prismatic[12]。此類方法能夠匯聚大量實體與實體間關係謂詞,其主要缺點是發現的知識噪音很大。人工智能

3. 基於 fixed ontology/schema 的構建方法

這一方法以少許人工定義的抽象ontology/schema做爲知識圖譜的頂層概念設計,以此來充實、匯聚符合頂層概念的實體與實體關係,並在此之上進一步發現新的概念,其表明系統如NELL[13]、PROSPERA[14]和DeepDive[15]等。此類方法可用於構建面向特定領域的知識圖譜。設計

4. 基於層次化本體 (ontology) 的構建方法

這一方法綜合使用上述幾種方法來構建知識圖譜,儘管能夠獲得大量的實體、屬性、實體關係,但其涉及的頂層概念數量每每較少,並且不能反映概念間的層次特性,爲此,另外一些研究試圖從開放領域尋找構建具備層次化特性的頂層概念的可能性,其主要表明爲Probase[16]。Probase從開放域匯聚了約265萬個概念,並計算這些概念的上下位關係,最後基於機率的方法,從橫向與縱向對這些概念進行合併,造成一個具備豐富層次的概念樹。blog

上述這幾種知識圖譜的構建方法均基於文本,目前針對跨媒體數據的自動知識網絡構建方法鮮有研究。整體而言,隨着現代人工智能技術的發展,基於非結構化開放文檔的自動知識圖譜構建將是將來發展的主要趨勢。ip

 

摘自:https://yq.aliyun.com/articles/216742?spm=5176.10695662.1996646101.searchclickresult.668c4ca8rPKJCR文檔

相關文章
相關標籤/搜索