2018年4月阿里巴巴業務平臺事業部——知識圖譜團隊聯合清華大學、浙江大學、中科院自動化所、中科院軟件所、蘇州大學等五家機構,聯合發佈藏經閣(知識引擎)研究計劃。算法
藏經閣計劃依賴阿里強大的計算能力(例如Igraph圖數據庫),和先進的機器學習算法(例如PAI平臺)。計劃發佈一年以來,阿里知識圖譜團隊有哪些技術突破?今天一塊兒來了解。數據庫
藏經閣計劃發佈一年以來,咱們對知識引擎技術進行了從新定義,將其定義成五大技術模塊:知識獲取、知識建模、知識推理、知識融合、知識服務,並將其開發落地。網絡
其中知識建模的任務是定義通用/特定領域知識描述的概念、事件、規則及其相互關係的知識表示方法,創建通用/特定領域知識圖譜的概念模型;知識獲取是對知識建模定義的知識要素進行實例化的獲取過程,將非結構化數據結構化爲圖譜裏的知識;而知識融合是對異構和碎片化知識進行語義集成的過程,經過發現碎片化以及異構知識之間的關聯,得到更完整的知識描述和知識之間的關聯關係,實現知識互補和融合;知識推理是根據知識圖譜提供知識計算和推理模型,發現知識圖譜中的相關知識和隱含知識的過程。知識服務則是經過構建好的知識圖譜提供以知識爲核心的知識智能服務,提高應用系統的智能化服務能力。數據結構
通過一年的工做,在知識建模模塊咱們開發了Ontology自動搭建、屬性自動發現等算法,搭建了知識圖譜Ontology構建的工具;在知識獲取模塊咱們研發了新實體識別、緊湊型事件識別,關係抽取等算法,達到了業界最高水平;在知識融合模塊,咱們設計了實體對齊和屬性對齊的深度學習算法,使之能夠在不一樣知識庫上達到更好的擴展性,大大豐富了知識圖譜裏的知識;在知識推理模塊,咱們提出了基於Character Embedding的知識圖譜表示學習模型CharTransE、可解釋的知識圖譜學習表示模型XTransE,並開發出了強大的推理引擎。框架
基於上面的這些技術模塊,咱們開發了通用的知識引擎產品,目前已經在全阿里經濟體的淘寶、天貓、盒馬鮮生、飛豬、天貓精靈等幾十種產品上取得了成功應用,天天有8000多萬次在線調用,日均離線輸出9億條知識。目前在知識引擎產品上,已經構建成功並運行着商品、旅遊、新制造等5個垂直領域圖譜的服務。機器學習
在每一個模塊的構建過程當中,咱們陸續攻克了一系列的技術問題。本文將選取其中的兩項工做來介紹給你們:函數
知識獲取模塊包含實體識別、實體連接、新實體發現、關係抽取、事件挖掘等基本任務,而實體識別(NER)又是其中最核心的任務。工具
目前學術界最好的命名實體識別算法主要是基於有監督學習的。構建高性能NER系統的關鍵是獲取高質量標註語料。可是高質量標註數據一般須要專家進行標註,代價高而且速度較慢,所以目前工業界比較流行的方案是依賴衆包來標註數據,可是因爲衆包人員素質良莠不齊,對問題理解也千差萬別,因此用其訓練的算法效果會受到影響。基於此問題,咱們提出了針對衆包標註數據,設計對抗網絡來學習衆包標註員之間的共性,消除噪音,提升中文NER的性能的方法。性能
這項工做的具體網絡框架如圖3所示:學習
標註員ID:對於各個標註員ID信息,咱們使用一個Looking-up表,表內存儲着每一個WorkerID的向量表示。向量的初始值經過隨機數進行初始化。在模型訓練過程當中,ID向量的全部數值做爲模型的參數,在迭代過程當中隨同其餘參數一塊兒優化。在訓練時每一個標註樣例的標註員,咱們直接經過查表獲取對應的ID向量表示。在測試時,因爲缺少標註員信息,咱們使用全部向量的平均值做爲ID向量輸入。
對抗學習(WorkerAdversarial):衆包數據做爲訓練語料,存在必定數量的標註錯誤,即「噪音」。這些標註不當或標註錯誤都是由標註員帶來的。不一樣標註員對於規範的理解和背景認識是不一樣的。對抗學習的各LSTM模塊以下:
再經過標註員分類器把label和common的LSTM特徵合併,輸入給CNN層進行特徵組合提取,最終對標註員進行分類。要注意的是,咱們但願標註員分類器最終失去判斷能力,也就是學習到特徵對標註員沒有區分能力,也就是共性特徵。因此在訓練參數優化時,它要反向更新。
在實際的實體識別任務中,咱們把common和private的LSTM特徵和標註員ID向量合併,做爲實體標註部分的輸入,最後用CRF層解碼完成標註任務。
實驗結果如圖4所示,咱們的算法在商品Title和用戶搜索Query的兩個數據集上均取得最好的性能:
知識圖譜推理計算是補充和校驗圖譜關係及屬性的必不可少的技術手段。規則和嵌入(Embedding)是兩種不一樣的知識圖譜推理的方式,並各有優劣,規則自己精確且人可理解,但大部分規則學習方法在大規模知識圖譜上面臨效率問題,而嵌入(Embedding)表示自己具備很強的特徵捕捉能力,也可以應用到大規模複雜的知識圖譜上,但好的嵌入表示依賴於訓練信息的豐富程度,因此對稀疏的實體很難學到很好的嵌入表示。咱們提出了一種迭代學習規則和嵌入的思路,在這項工做中咱們利用表示學習來學習規則,並利用規則對稀疏的實體進行潛在三元組的預測,並將預測的三元組添加到嵌入表示的學習過程當中,而後不斷進行迭代學習。工做的總體框架如圖5所示:
嵌入學習優化的目標函數是:
嵌入學習優化的目標函數是:
其中:
lsro表示三元組的標記,
表示三元組的評分函數,vs表示圖譜三元組中主語(subject)的映射,Mr表示圖譜中兩個實體間關係的映射,vo表示圖譜三元組中賓語(object)的映射。
基於學習到的規則(axiom),就能夠進行推理執行了。經過一種迭代策略,先使用嵌入(Embedding)的方法從圖譜中學習到規則,再將規則推理執行,將新增的關係再加入到圖譜中,經過這種不斷學習迭代的算法,可以將圖譜中的關係預測作的愈來愈準。最終咱們的算法取得了很是優秀的性能:
除了上述兩項工做之外,在知識引擎技術的研發上咱們還有一系列的前沿工做,取得了領先業界的效果,研究成果發表在AAAI、WWW、EMNLP、WSDM等會議上。
以後阿里巴巴知識圖譜團隊會持續推動藏經閣計劃,構建通用可遷移的知識圖譜算法,並將知識圖譜裏的數據輸出到阿里巴巴內外部的各項應用之中,爲這些應用插上AI的翅膀,成爲阿里巴巴經濟體乃至全社會的基礎設施。
原文連接 本文爲雲棲社區原創內容,未經容許不得轉載。