詳解：多模態知識圖譜種類及其應用

點擊上方「視學算法」，選擇加"星標"或「置頂」web

重磅乾貨，第一時間送達算法

做者丨漆桂林@知乎（已受權）

來源丨https://zhuanlan.zhihu.com/p/163278672

編輯丨極市平臺

知識圖譜技術已經被普遍用於處理結構化數據（採用本體+D2R技術）和文本數據（採用文本信息抽取技術），可是還有一類非結構化數據，即視覺數據，則相對關注度較低，並且相缺少有效的技術手段來從這些數據中提取結構化知識。最近幾年，雖然有一些多模態視覺技術提出，這些技術主要仍是爲了提高圖像分類、圖像生成、圖像問答的效果，不能很好地支撐多模態知識圖譜的構建。視覺數據庫一般是圖像或視頻數據的豐富來源，並提供關於知識圖譜中實體的充分視覺信息。顯然，若是能夠在在更大範圍內進行連接預測和實體對齊，進而進行實體關係抽取，可使現有的模型在綜合考慮文本和視覺特徵時得到更好的性能，這也是咱們研究多模態知識圖譜（multi-modal knowledge graph）的意義所在。數據庫

目前，已經有不少開放知識圖譜（見https://lod-cloud.net/和http://www.openkg.cn/），並且很多企業也有本身的企業知識圖譜。然而，這些知識圖譜不多有可視化的數據資源。圖1所示爲多模態知識圖譜的發展過程。api

多模態知識圖譜與傳統知識圖譜的主要區別是，傳統知識圖譜主要集中研究文本和數據庫的實體和關係，而多模態知識圖譜則在傳統知識圖譜的基礎上，構建了多種模態（例如視覺模態）下的實體，以及多種模態實體間的多模態語義關係。例如在最新的一個多模態百科圖譜Richpedia中（以下圖2所示）[5]，首先構建了圖像模態倫敦眼圖像與文本模態知識圖譜實體（DBpedia實體：London eye）之間的多模態語義關係（rpo:imageof），以後還構建了圖像模態實體倫敦眼與圖像模態實體大本鐘之間的多模態語義關係（rpo:nextTo）。微信

1、多模態知識圖譜相關工做

隨着人工智能技術的不斷髮展，知識圖譜做爲人工智能領域的知識支柱，以其強大的知識表示和推理能力受到學術界和產業界的普遍關注。近年來，知識圖譜在語義搜索、問答、知識管理等領域獲得了普遍的應用。其中在描述多媒體的可用數據集中，現有的工做重點是捕獲多媒體文件的高級元數據(如做者、建立日期、文件大小、清晰度、持續時間)，而不是多媒體內容自己的音頻或視覺特性。如下會介紹幾個重要的開源多模態知識圖譜：網絡

1.DBpedia[1]app

DBpedia做爲近十年來語義網研究的中心領域，其豐富的語義信息也將會成爲從此多模態知識圖譜的連接端點，其完整的本體結構對於構建多模態知識圖譜提供了很大的便利。DBpedia項目是一個社區項目，旨在從維基百科中提取結構化信息，並使其可在網絡上訪問。DBpedia知識庫目前描述了超過260萬個實體。對於每一個實體，DBpedia定義了一個惟一的全局標識符，能夠將其解引用爲網絡上一個RDF描述的實體。DBpedia提供了30種人類可讀的語言版本，與其餘資源造成關係。在過去的幾年裏，愈來愈多的數據發佈者開始創建數據集連接到DBpedia資源，使DBpedia成爲一個新的數據web互聯中心。目前，圍繞DBpedia的互聯網數據源網絡提供了約47億條信息，涵蓋地理信息、人、公司、電影、音樂、基因、藥物、圖書、科技出版社等領域。編輯器

2.Wikidata[2]ide

Wikidata中也存在大量的多模態資源，Wikidata是維基媒體基金會(WMF)聯合策劃的一個知識圖譜，是維基媒體數據管理策略的核心項目。充分利用Wikidata的資源，主要挑戰之一是提供可靠而且強大的數據共享查詢服務，維基媒體基金會選擇使用語義技術。活動的SPARQL端點、常規的RDF轉儲和連接的數據api是目前Wikidata的核心技術，Wikidata的目標是經過創造維基百科全球管理數據的新方法來克服數據不一致性。Wikidata的主要成就包括:Wikidata提供了一個可由全部人共享的免費協做知識庫;Wikidata已經成爲維基媒體最活躍的項目之一;愈來愈多的網站在瀏覽頁面時都從Wikidata獲取內容，以增長大數據的可見性和實用性。svg

3.IMGpedia[3]

IMGpedia是一個大型的連接數據集，它從Wikimedia Commons數據集中的圖像中收集大量的可視化信息。它構建並生成了1500萬個視覺內容描述符，圖像之間有4.5億個視覺類似關係，此外，在IMGpedia中單個圖像與DBpedia之間還有連接。IMGpedia旨在從維基百科發佈的圖片中提取相關的視覺信息，從Wikimedia中收集全部術語和全部多模態數據(包括做者、日期、大小等)的圖像，併爲每張圖像生成相應的圖像描述符。連接數據不多考慮多模態數據，但多模態數據也是語義網絡的重要組成部分。爲了探索連接數據和多模態數據的結合，構建了IMGpedia，計算Wikipedia條目中使用的圖像描述符，而後將這些圖像及其描述與百科知識圖譜連接起來。

IMGpedia是一個多模態知識圖譜的先例。將語義知識圖譜與多模態數據相結合，面對多種任務下的挑戰和機遇。IMGpedia使用四種圖像描述符進行基準測試，這些描述符的引用和實現是公開的。IMGpedia提供了Wikidata的連接。因爲DBpedia中的分類對一些可視化語義查詢不方便，因此IMGpedia旨在提供一個更好的語義查詢平臺。IMGpedia在多模態方向上是一個很好的先例，但也存在一些問題，好比關係類型稀疏，關係數量少，圖像分類不清晰等，也是以後須要集中解決的問題。

4.MMKG[4]

MMKG主要用於聯合不一樣知識圖譜中的不一樣實體和圖像執行關係推理，MMKG是一個包含全部實體的數字特徵和(連接到)圖像的三個知識圖譜的集合，以及對知識圖譜之間的實體對齊。所以，多關係連接預測和實體匹配社區能夠從該資源中受益。MMKG有潛力促進知識圖譜的新型多模態學習方法的發展，做者經過大量的實驗驗證了MMKG在同一鏈路預測任務中的有效性。

MMKG選擇在知識圖譜補全文獻中普遍使用的數據集FREEBASE-15K (FB15K)做爲建立多模態知識圖譜的起點。知識圖譜三元組是基於N-Triples格式的，這是一種用於編碼RDF圖的基於行的純文本格式。MMKG同時也建立了基於DBpedia和YAGO的版本，稱爲DBpedia-15K(DB15K)和YAGO15K，經過將FB15K中的實體與其餘知識圖譜中的實體對齊。其中對於基於DBpedia的版本，主要構建了sameAs關係，爲了建立DB15K，提取了FB15K和DBpedia實體之間的對齊，經過sameAs關係連接FB15K和DBpedia中的對齊實體；構建關係圖譜，來自FB15K的很大比例的實體能夠與DBpedia中的實體對齊。可是，爲了使這兩個知識圖譜擁有大體相同數量的實體，而且擁有不能跨知識圖譜對齊的實體，在DB15K中包括了額外的實體；構建圖像關係，MMKG從三大搜索引擎中獲取相應文本實體的圖像實體，生成對應的文本-圖像關係。可是，它是專門爲文本知識圖譜的完成而構建的，主要針對小數據集(FB15K, DBPEDIA15K, YAGO15K)。MMKG在將圖像分發給相關文本實體時也沒有考慮圖像的多樣性。

2、基於百科多模態知識圖譜Richpedia

雖然說以前的一些工做如IMGpedia和MMKG融合了多模態的知識，構建了多模態知識圖譜，但其中也存在一些問題，例如在IMGpedia中關係類型稀疏，關係數量少，圖像分類不清晰等，在MMKG中圖像並無做爲單獨的圖像實體存在，而是依賴於相應的傳統文本實體。這些問題對於多模態任務的發展有着較大制約，東南大學認知智能研究所基於解決如上存在的問題的動機，提出了多模態知識圖譜Richpedia[5]。

Richpedia多模態知識圖譜的定義以下：實體集合E包括文本知識圖譜實體EKG和圖像實體EIM，R表示一系列關係的集合，其中E和R利用統一資源標識符（IRIs）表示。L是文字的集合（例如：「倫敦」，「750px」），B表示爲一系列的空白節點。Richpedia三元組t表示格式爲<subject, predicate, object>，是（E∪B）×R×（E∪L∪B），Richpedia多模態知識圖譜是Richpedia三元組的集合。

在構建多模態知識圖譜中，整體模型如圖3所示。接下來咱們會逐步介紹構建Richpedia的流程。

與通常的文本知識圖譜不一樣，Richpedia的出發點是構造一個多模態知識圖譜，其中包含了全面的圖像實體及其之間的關係。可是，如圖4所示，文本知識圖譜實體的圖像資源有很大一部分是長尾分佈。換句話說，平均每個文本知識圖譜實體在Wikipedia中只有不多的視覺信息。所以，咱們考慮藉助外部來源來填充Richpedia，首先咱們基於現有的傳統文本實體，從維基百科，谷歌，必應和雅虎四大圖像搜索引擎中獲取相應的圖像實體，每個圖像做爲知識圖譜中的一個實體存儲於Richpedia中。Wikidata已經爲每一個文本知識圖譜實體定義了惟一的統一資源標識符，咱們將這些統一資源標識符添加到Richpedia做爲文本知識圖譜實體。在目前的版本中，咱們主要收集了30,638個關於城市、景點和名人的實體。對於圖像實體，咱們能夠直觀地從Wikipedia上收集圖像，而後在Richpedia中建立相應的統一資源標識符。

在收集完圖像實體以後，咱們須要對圖像實體進行預處理和篩選。由於咱們的數據來自於開放資源，它們會被搜索引擎基於與查詢字段的相關性評分進行排名。從多模態知識圖譜的角度而言，文本知識圖譜實體所包含的圖像實體不只要相關性高並且還要具備多樣性，如圖5所示，對於中間的圖像實體，右側的圖像實體由於較高的類似性從而被系統過濾掉，保留左側類似性較低的圖像實體。由於從搜索引擎中獲取的圖像實體不免存在重複問題，接下來咱們經過一系列的預處理操做，使得每一個圖像實體都與相應的傳統文本實體具備較高的相關度。其中預處理操做包括去噪操做和多樣性檢測，去噪操做的目的是去除不相關的圖像實體，多樣性檢測的目的是使得圖像實體具備儘量高的多樣性。

由於很難基於不一樣圖像的像素特徵直接檢測出這些語義關係，因此咱們利用基於規則的關係抽取模板，藉助Wikipedia圖像描述中的超連接信息，生成圖像實體間的多模態語義關係。在圖6中，咱們以rpo:contain和rpo:nearBy爲例說明如何發現協和廣場，盧克索方尖碑和航運噴泉圖像實體間的語義關係。如圖6所示，咱們在中文維基百科中協和廣場詞條中獲取到包含盧克索方尖碑和航運噴泉的圖像實體，從語義視覺關係的角度上看，協和廣場包括了盧克索方尖碑和航運噴泉，盧克索方尖碑就在航運噴泉的旁邊。爲了發現這些關係，咱們收集這些圖像的文本描述，並提出三個有效的規則來提取多模態語義關係：

規則1. 若是在描述中有一個超連接，其指向的對應Wikipedia實體的機率很高。咱們利用Stanford CoreNLP檢測描述中的關鍵字。而後，經過字符串映射算法發現預約義關係。例如，若是咱們在兩個實體之間的文本描述中獲得單詞‘left’，咱們將獲得‘nearBy’關係。

規則2. 若是描述中有多個超連接，咱們基於語法分析器和語法樹檢測核心知識圖譜實體（即描述的主體）。而後，咱們以核心知識圖譜實體做爲輸入，將這種狀況簡化爲規則1。

規則3. 若是在描述中沒有指向其餘詞條的超連接，咱們使用Stanford CoreNLP來查找描述中包含的Wikipedia知識圖譜實體，並將這種狀況簡化爲規則1和規則2。由於規則3依賴於NER結果，準確率低於相應的預標註超連接信息，因此它的優先級低於前兩個規則。

3、基於Richpedia的多模態知識服務網站

Richpedia網站（http://rich.wangmengsd.com/）是爲Richpedia多模態知識圖譜開發的一個網站，其提供了對Richpedia數據庫的介紹，查詢，資源檢索，使用教程以及數據下載服務。其中包括：

a) Homepage:主要對Richpedia數據庫進行了概述。

b) Download:提供了image文件和三元組關係N-Triples文件的下載連接。

c) SPARQL:實現了對Richpedia數據庫中的實體和視覺關係的SPARQL查詢。

d) Query：提供了對地名和人物的直接查詢相關圖片功能。

e) Tutorial：提供了網站的使用教程。

首先，咱們能夠在Richpedia中查詢實體信息，包括圖像實體實體和文本知識圖譜實體。第一步是選擇查詢的實體類別，而後選擇要具體查詢的實體。例如，若是咱們要查詢安卡拉城市實體的文本知識圖譜實體和圖像實體，能夠在下拉選擇器中選擇對應的安卡拉城市標籤。以後出現的頁面中上半部分是安卡拉的文本知識圖譜實體，下半部分是安卡拉的圖像實體。

其次，咱們能夠經過Richpedia的在線訪問平臺查詢圖像實體之間的視覺語義關係。選擇查詢文本知識圖譜實體後，點擊對應的圖像實體，能夠查看圖像實體的視覺語義關係。例如，當咱們想查詢一個與北京動物園圖像實體具備rpo:sameAs關係的圖像實體時，咱們能夠點擊相應的北京動物園圖像實體，獲得相應的結果。

f) Ontology：提供了Ontology的相關信息。

g) Resource：提供了對全部圖片資源的訪問地址。

h) Github連接以及頁面底端：提供了friendly link，聯繫人郵箱，Github主頁以及分享協議。

4、多模態知識圖譜應用

多模態知識圖譜的應用場景十分普遍，首先一個完備的多模態知識圖譜會極大地幫助現有天然語言處理和計算機視覺等領域的發展，同時對於跨領域的融合研究也會有極大的幫助，多模態結構數據雖然在底層表徵上是異構的，可是相同實體的不一樣模態數據在高層語義上是統一的，因此多種模態數據的融合有利於推動語言表示等模型的發展，對於在語義層級構建多種模態下統一的語言表示模型提出數據支持。其次多模態知識圖譜技術能夠服務於各類下游領域，例如多模態實體連接技術能夠融合多種模態下的相同實體，能夠普遍應用於新聞閱讀，時事推薦，明星同款等場景中如圖14，多模態知識圖譜補全技術能夠經過遠程監督補全多模態知識圖譜，完善現有的多模態知識圖譜，利用動態更新技術使其更加的完備，多模態對話系統的應用就更加的普遍，現階段電商領域中集成圖像和文本的多模態對話系統的研究蒸蒸日上，多模態對話系統對於電商推薦，商品問答領域的進步有着重大的推動做用。

多模態知識圖譜是一個新興領域，受益於近些年通信技術的發展，多模態數據愈來愈成爲人們生活中觸手可及的信息，種種多模態技術也成爲當下研究的熱門方向。

參考文獻

[1] Auer S, Bizer C, Kobilarov G, et al. Dbpedia: A nucleus for a web of open data[M]//The semantic web. Springer, Berlin, Heidelberg, 2007: 722-735.

[2] Vrandečić D, Krötzsch M. Wikidata: a free collaborative knowledgebase[J]. Communications of the ACM, 2014, 57(10): 78-85.

[3] Ferrada S, Bustos B, Hogan A. IMGpedia: a linked dataset with content-based analysis of Wikimedia images[C]//International Semantic Web Conference. Springer, Cham, 2017: 84-93.

[4] Liu Y, Li H, Garcia-Duran A, et al. MMKG: multi-modal knowledge graphs[C]//European Semantic Web Conference. Springer, Cham, 2019: 459-474.

[5] Wang M, Qi G, Wang H F, et al. Richpedia: A Comprehensive Multi-modal Knowledge Graph[C]//Joint International Semantic Technology Conference. Springer, Cham, 2019: 130-145.

點個在看 paper不斷！

本文分享自微信公衆號 - 視學算法（visualAlgorithm）。
若有侵權，請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」，歡迎正在閱讀的你也加入，一塊兒分享。