編者:本文來自復旦大學博士崔萬雲在攜程技術中心主辦的深度學習Meetup上的主題演講,分享了復旦大學研發的基於知識圖譜的QA系統。關注攜程技術中心微信公號ctriptech,可獲知更多技術分享信息。文末可下載演講PPT。html
QA系統用於回答人們以天然語言形式提出的問題,其在互聯網、通訊及醫療等領域得到顯著的成功。其中,IBM研發的Watson系統就在與人類的答題比賽中獲勝並首次得到100萬美金獎勵;蘋果的Siri系統成功運行於iPhone之中,改變人與iPhone的交流方式;還有不少其它的公司也成功研發文字或語音的QA系統,好比谷歌的Google Now、亞馬遜的Alexa和微軟的Cortana;另外,在醫學上面如Health Care,QA系統也幫助醫生與患者獲得及時的交互。微信
QA系統依據其回答語料能夠分爲兩類,一類是常見的純文本形式,如網絡文檔、問答社區內容、搜索引擎結果、百科數據等。另外一類則是知識圖譜,一般以RDF三元組的形式結構化表示。因爲結構化的特色,QA系統相比純文本語料,每每能夠提供更加精確和簡練的結果。另外一方面,近些年涌現出了大批十億甚至更大規模的知識圖譜,包括WolframAlpha, Google Knowledge Graph, Freebase等。這些知識圖譜的出現保證基於其的問答系統的覆蓋率。因此當前,基於知識圖譜的開放領域QA系統是可行的。網絡
1、系統架構架構
QA系統分爲三層架構模型,分別爲實體、語言和應用層,以下圖所示。學習
其中最下層爲實體層,其爲上層模型提供最基礎的計算單元,包括了語義社區搜索、語義消歧義和同現網絡模塊;中間層爲語言層,做爲鏈接實體層和應用層的橋樑,其包含了具備必定語義信息的短文本;最上層則爲集成的QA系統,包括了問題模板和深度學習模塊。測試
一、實體層模型研究搜索引擎
1.1 語義社區搜索spa
如上圖所示,節點即表明單詞在語義社區網絡中的語義,邊則爲單詞與單詞之間的關係,以此模型便可找到一個單詞所在的社區,以及單詞之間的類似度,以下圖所示pot和bowl爲同一語義社區,有很高的類似度;pot和plate爲不一樣的語義社區,其中兩個有兩個單詞交集,爲中等類似度;pot和tube爲不一樣的語義社區,其中只有一個單詞交集,爲低等類似度;htm
1.2 語義消歧義索引
二、語言層模型研究
2.1 動詞語義模板
根據動詞與名詞之間的相關性,提出了動詞語義模板的理論,其中包括概念化的動詞模板好比verb $cconcept,和固定化的動詞模板好比verb $iobject。動詞語義模板主要是用來對語言實體作概念化的處理,因此須要保證其既具備通用性,又具備特殊性的特徵。基於信息論的最小描述距離理論,咱們提出了知足上述兩個特徵的動詞語義模板,即
三、應用層模型研究
如上圖所示,QA系統從問題中經過語言實體識別、語言模板提取、預知索引創建並最終查找到問題的答案。其中,重點爲怎麼從問題中提取出正確的實體屬性?問題模板很好解決了該問題,其能夠將問題中的實體轉化爲其所對應的概念,以下圖Honolulu其概念爲City的意義。
那麼,問題模板又是怎麼從實體找到對應的屬性呢?咱們提出了一個基於機率圖的方法,使得問題的答案跟預測的答案最接近,以下圖所示。首先經過問題的實體識別能夠獲得實體,而後進行問題的概念化獲得問題的問題模板,而後根據模板找到對應的屬性,最後根據屬性查找值。
2、研究結果
基於上述三層架構模型,訓練了27126355個問題模板,覆蓋了2782個問題意圖羣,成功研發了QA系統,以下圖1所示。在CGF舉辦的一個基於知識圖譜問答的競賽中,基於實體的問答成功率高達59%,以下圖2所示。在QALD的測試中也得到了很高的準確率,以下圖3所示。
3、基於深度學習的QA研究
首先,爲何深度學習適合作實體屬性查找呢?由於,深度學習對於序列性的問題有着自然的優點,而通常咱們的問題都是序列性的。
一、CNN
以下爲最簡單的CNN網絡,最下層即爲問題的實體提取層,首先將連續的問題序列化爲單個的實體。而後,對各個實體進行卷積運算。最後獲取機率最大的Inbinding,由此獲得實體屬性值。同時,提出了能更好理解問題上下文的雙向LSTM模型。
二、KB Based QA + Deep Learning
爲了加強上述CNN網絡的特性,咱們提出瞭如下的模型。其模型原理與CNN相似,包含3個CNN網絡,每一個CNN網絡獨立進行屬性的預測,並最後得到最大的均方根值。與單個CNN網絡相比,其除了具備Answer Path屬性外,還增長了Answer Context和Answer Type的屬性。其中,Answer Context表示候選答案周圍的信息,Answer Type則表示候選答案的類型。
4、對QA系統的思考
對於QA系統,咱們如今面臨的問題有:
一、缺少高質量的訓練數據集,好比只有3778個網絡問題的QA對,而對於QALD則只有100個QA對;
二、知識圖譜自己的數據不完善;
同時,基於KB-based的QA具備的有限的聯繫且準確的答案的屬性,而基於IR-based的QA具備無限的聯繫且模糊的答案的屬性,那麼如何將兩個模型進行結合獲得更廣且更準確的問題答案呢?這是咱們正在着力研究,且具備良好前景的問題。
(本文由攜程技術中心何軍整理)
演講PPT下載:
說明:本文由攜程技術中心原創,如需轉載請郵件niuq#ctrip.com(#改成@)。
深度學習Meetup系列: