阿里副總裁玄難:藏經閣計劃首次在阿里應用落地

2018年4月,阿里聯合清華大學、浙江大學、中科院自動化所、中科院軟件所、蘇州大學等五家機構,聯合發佈藏經閣(知識引擎)研究計劃,同時還宣佈打算用一年時間初步建成首個開放的知識引擎服務平臺,服務社會。算法

在全國知識圖譜與語義計算大會(CCKS)上,阿里巴巴集團副總裁、藏經閣計劃阿里負責人牆輝(玄難)宣佈藏經閣計劃首次在阿里應用落地,以及首次披露大規模知識構建技術細節,並從三個方面進行了解讀。數據庫

clipboard.png
阿里巴巴集團副總裁牆輝(玄難)安全

AI應用背後的海量知識網絡

伴隨着過去近19年的發展,阿里生態下消費者、賣家、品牌商、運營等各類角色參與其中,天天都產生着海量的數據。框架

以商品相關的數據爲例,阿里有近百億級別的實體,例如品牌、產品、條碼等,實體之間又有百億級別的關係邊。以百科數據爲例,阿里有近千萬級別的實體,例如人物、地點、公司等,實體之間有十億級別的關係邊。機器學習

這些數據來源很是普遍,有來自國家的數據,例如GS1編碼中心的條碼數據,有阿里電商生態的數據,例如線上如淘寶、天貓、盒馬,有不一樣業務形態的數據,例如高德、UC等。工具

但對於阿里來講,這些寶貴的資產要求數據具有很高的完整度和肯定性,多源數據要把冗餘度下降,數據無衝突,並彼此連接。最終目的是把數據變成知識,可以支撐着上層的AI應用,主要是三個方向:業務中臺商業能力的智能化升級、搜索推薦、智能交互。學習

除了這些事實類的知識以外,阿里還有大量的形式化知識。優化

形式化知識對於垂直知識圖譜很重要,構建知識圖譜和知識圖譜服務都要用到這些知識。例如商品知識圖譜生成標籤的畫像知識,商品分類的場景知識,生成關係邊的連接知識:判斷商品-產品的關係,生成屬性值的知識。還有大量的業務知識,例如管控業務和跨市場商品體系的聯通,幫賣家把國內商品自動發佈到國外。編碼

海量的數據和知識,使咱們在衆多領域能夠創建完善的知識引擎,但同時也面臨不少挑戰:

• 阿里業務涉及不少垂直領域,如何快速搭建各個領域的知識圖譜?

• 如何把各個領域的知識圖譜快速聯通?

• 如何管理海量的知識(事實類知識和形式化知識),如何更新這些龐大的知識圖譜?

• 如何面向搜索推薦、智能交互、商業能力智能化等多種應用作統一的知識表示?

• 最終如何實現認知與感知的結合,實現類腦的推理能力?

首次披露大規模知識構建技術細節

面對這些挑戰,咱們在今年4月,聯合清華大學、浙江大學、中科院自動化所、軟件所、蘇州大學等五家機構,聯合發佈藏經閣(知識引擎)研究計劃。

整個計劃依賴阿里強大的計算能力(例如Igraph圖數據庫),和先進的機器學習算法(例如PAI平臺),把知識引擎分爲五個模塊:包括知識建模、知識獲取、知識融合、知識推理計算和知識賦能。

這五個模塊能夠提供從數據、信息、知識到知識服務一整套技術平臺化服務,同時,特定領域知識圖譜可插拔,特定領域知識圖譜加載後,能夠提供特定領域的知識服務。

現在,知識引擎這五大技術模塊技術研究有重要進展。

知識融合&知識獲取算法大規模擴展

知識引擎提供通用的服務就會面臨不少領域的知識圖譜的構建和不一樣的業務。知識融合&知識獲取算法要具有良好的擴展性。良好的擴展性須要快速獲取訓練數據,因此須要引入衆包。

可是,衆包數據質量良莠不齊。不一樣的標註者把iPhoneX和蘋果iPhone X標成產品詞,這種不一致樣本會成爲訓練的噪音。

咱們經過對抗學習,對抗學習的優化目標是分類器分不標註者。從而隱層網絡能學習出標註者之間的共性特徵,而後把這個共性特徵拼接到識別模型中。從而提升識別的精度。

提升知識獲取模塊實體關係抽取的精度

文本的句法信息對實體關係的識別很是重要。例如A和B建立了公司C。咱們挖掘出公司C的創始人是A。經過A和B的並列關係的句法信息咱們就能夠知道公司C的創始人還有B。 因此咱們設計了基於樹結構來表示一個實體,從而可以把句法的層次信息表示進深度學習網絡。

邏輯推理與深度學習結合的推理框架

這個推理引擎,經過一階邏輯霍恩子句可以表示咱們知識圖譜中的百萬級的形式化知識,使得這些知識可沉澱、可複用、可執行。形式化知識實時執行能夠補全知識圖譜的屬性值,補全實體關係,生成畫像標籤,知識放大支持查詢。

咱們的創新點在於:整個推理引擎支持肯定性推理,例如基於形式化知識的推理和基於深度學習推理,例如基於深度學習的關係補全。同時推理引擎支持算法、詞庫、垂直知識圖譜的可插拔,例如查找產地爲中國的食品:用到詞林的信息,產地和原產地是同義詞;用到地理知識圖譜,天津屬於中國;用到算法模塊-同款商品算法,這樣找到的商品量會增長百倍。

藏經閣計劃首次應用落地

藏經閣計劃涉及商品知識圖譜、旅遊知識圖譜、客服體驗知識圖譜、安全知識圖譜,現在,該計劃首次在安全知識圖譜和旅遊知識圖譜應用落地。

咱們用知識引擎爲城市大腦提供服務,安全知識圖譜全要素搜索上線,可以讓你的城市更安全,讓每一個人在一個城市裏面過的更開心。

旅遊業務是一個知識密集型的業務,消費者要對一個旅遊目的地的知識作到快速獲取和使用。知識引擎提升旅遊景點信息質量、自動把遊記攻略等內容結構化,和旅遊知識的聯通,極大提升用戶的旅遊體驗。

咱們但願一年內基於這些知識圖譜沉澱通用的知識引擎服務包括:1)本體半自動化構建算法及管理工具;文本自動結構化算法;多源知識庫融合算法與工具;基於形式化知識的推理及工具; 2)天然語言、邏輯語言、數據庫語言查詢服務。

各種垂直領域知識圖譜,提煉和發現領域知識,爲上層業務提供知識服務,實現商業創新,最終使各個垂直知識圖譜關聯互通,建成全領域知識圖譜,爲社會服務。

本文做者:阿里妹

閱讀原文

本文來自雲棲社區合做夥伴「阿里技術」,如需轉載請聯繫原做者。

相關文章
相關標籤/搜索