點擊藍字git
關注咱們github
AI TIME歡迎每一位AI愛好者的加入!web
從符號智能到感知智能,再到今天的認知智能,人工智能的發展可謂突飛猛進。2020年大火的GPT-3,其參數量達到了千億級別,規模已經接近人類神經元的數量。這說明,GPT-3的表示能力已經接近人類了,但它仍有一些認知侷限——沒有常識。常識知識的獲取、理解與運用,一直是人工智能最核心的問題之一。長久以來,學術界和工業界都一直欠缺一個比較好的常識知識表達與獲取方法。算法
在本次直播中,咱們很榮幸地邀請到來自香港科技大學的張洪銘博士爲你們分享他參與的關於常識獲取的相關工做。本期分享介紹瞭如何從事態(事件和狀態)的角度來理解常識知識以及如何從無標註文本里以低成本自動得到相關的知識,主要圍繞如下幾個方面進行展開:⑴如今預訓練模型(BERT, RoBERTa等)在常識理解任務上的進展和侷限性。⑵如何利用高階語義傾向來表達理解常識知識。⑶在此基礎上,如何自動從預料中構建一個基於事件的知識圖譜ASER來有效表達常識知識。⑷如何利用ASER中所蘊含的常識知識來幫助下游任務(指代消解,事件預測,問答,對話等等)。微信
1、背景框架
毋庸置疑,常識在天然語言理解(NLU)中是極爲重要的。如下圖爲例,人類能夠很容易理解「踩進水坑」與「回家換鞋」這兩個事件是如何關聯起來的,由於咱們知道踩進水坑會致使鞋溼,而溼的鞋會讓人感到不舒服,天然就會想回家換掉。因而可知,常識與事件是息息相關的。機器學習
何爲常識?一個較爲流行的定義是「對於正常人來講,常識通常是指對周圍事件的良好判斷」。而在AI領域,一般將常識做爲一個術語來指代「大多數人公認的百萬級的基本事實和理解」。常識與事實(fact)一個很重要的區別是因爲默認常識是你們所熟知的,爲了交流的高效性,在社交中一般會被人們所忽略。比方說,「若是你忘掉了一我的的生日,他可能會很生氣」,「鳥能夠飛,但書不能」,這些是平常交流中不須要重複的。另一個重要區別是與事實不一樣,常識更多的是一種傾向性,它並不老是正確的。如上述兩個例子,若是你朋友知道你最近很忙,就算你忘記他生日,他不必定會生氣。不是全部鳥均可以飛,好比鴕鳥。svg
爲了幫助機器常識,現已有不少常識資源,經過人工智能的方式創建常識知識庫,較爲有名的是ConceptNet/OMCS(Open Mind Common Sense)。最初的OMCS包含了20種常識關係類型,最新的ConceptNet 5.0在OMCS的基礎上拓展到了33種,除了常識外,還涉及WordNet相關知識.函數
最近推出的一個常識數據集叫ATOMIC,包含了大量生活事件的常識,利用了9種人定義的關係類型。可是這些以人工構建常識知識庫的方法總存在一些侷限性:(1)它只能覆蓋選定的邊;(2)每尋找一個新的邊,都須要花費大量的金錢和時間。
想要突破以上侷限性,天然的想法是可否經過自動的方式從天然語言中獲取常識。爲了研究這個問題,首先須要弄清常識在天然語言中是如何表達的,而這就要溯源到語義理論的下界。語言描寫去掉語法就獲得了語義。理解語言既須要「說話者的語言知識」,也須要「有關世界的知識」,這裏的「世界知識」包括事實和常識兩部分。
以下圖的例子,三個句子語法同樣,但描述了三個徹底不一樣的事件。但當說「它太危險了」,句中「它」在三個選項中顯然更傾向於「獅子」,由於這是常識。總結來講,當語法被困定時,咱們作出的選擇能夠反映出咱們對世界的理解。
在語言學上這被稱爲選擇偏好(Selectional Preference),是選擇限制(Selectional Restriction)的一種泛化,一般也被用爲一種很是重要的語言學特徵。它最初只被運用到了WordNet中的IsA層次結構和謂語-賓語關係。經過此公式,咱們能夠很是容易地使用不一樣組合的頻率/合理性得分來反映人們的偏好。例如,一個模型或知識庫可以給予三元組(「Cat」-IsA-「Animal」) 的分數高於(「Cat」-IsA-「Plant」),就能夠認爲這個模型或知識庫具有了「貓是一種動物,而不是植物」的常識。
只有以上兩種關係是不能覆蓋所有常識知識的,所以學術界也嘗試進行了探索,以下圖所展現的。一階關係,好比擴展到主語位。二階關係,有時對於一個事件來講,咱們對它的主語和謂語沒有直接要求和傾向性,但對於主語和謂語的特徵有很直接的傾向性。進一步拓展,能夠獲得更高階的關係,事件之間的傾向性。以下圖所示這項工做,主要研究了語言關係的選擇偏好與人類定義的常識之間的聯繫。
2、TransOMCS模型框架
上面已經提到獲取常識的常規方法一般須要費力且昂貴的人工註釋,這在大規模上是不可行的。對此,張洪銘等探索出了一種新的實用方法——TransOMCS,從語言圖中提取常識知識,目的是將經過語言模式得到的廉價知識轉化爲昂貴的常識知識。下圖爲這項工做的整體框架。
⑴首先對語言知識圖和種子常識知識圖兩個數據集進行模式提取,但提取獲得的模式可能存在噪音,所以在此基礎上須要進一步的清洗和挑選。
⑵而後,在獲取到高質量的模式後,能夠遷移回原始的語言知識圖,從而獲得大量的常識知識。
⑶最後,對獲取到的常識知識進行打分,獲得最終更高質量的常識。整個過程不須要額外的標註,所以十分便宜且具備較好的拓展性。
下圖爲針對不一樣常識關係語言圖和提取模式的示例,這些模式是經過種子常識元組和圖中的單詞匹配來提取的。給定語言圖做爲輸入,能夠將這些模式應用於提取相似OMCS的常識。提取的頭部和尾部概念分別用藍色和紅色圓圈表示。
模式選擇須要從新精煉自動提取的模式,在這個過程當中,應綜合考慮高頻率和複雜性兩個因素。對於每一個模式,並非簡單看其自己的分數,而是須要將全部的候選模式通過對比分析,選擇置信度更高的。
爲了最大程度地減少模型噪聲的影響,提出了一個知識排名模塊,根據置信度對全部提取的知識進行排名。這裏的置信度主要利用原始句子的語義和頻率兩方面的信息。
3、實驗結果
實驗部分,將ASER做爲語言知識圖,種子常識知識圖則採用OMCS/ConceptNet。結果是輸入了一個大型的常識庫——TransOMCS,是由OMCS格式轉換而來的。雖然TransOMCS與OMCS相似,但其規模約是OMCS的一百多倍。另外,在與人工標註的對比中發現,TransOMCS是擁有高質量的高置信度。最重要的是,這幾乎沒有任何成本。
下表列出了模型評估的摘要,主要對比了COMET和LAMA兩個基準模型。從表中能夠看出,TransOMCS在數量上勝於另外三個模型,即便是TransOMCS的最小子集也要比其餘最大生成策略高出10倍。另外,TransOMCS在新穎性方面也優於COMET,尤爲是新穎概念的百分比。其背後的緣由在於COMET是一種純粹的機器學習方法,它在訓練集上學習生成尾部概念。模型越強大,就越可能擬合訓練數據,產生的新穎概念就越少。所以,經過實驗證實了確實能夠將語言知識轉移爲常識知識,SP能夠有效地表示常識。
下圖爲案例研究,以進一步分析不一樣的獲取方法。COMET是惟一能夠生成長概念的模型,但同時它也遭受生成無心義單詞的困擾。除此以外,COMET可能會擬合訓練數據,即便十個輸出不徹底相同,但其中四個都表示同一件事。
LAMA的最大優點在於它不受監督,但它有兩個主要缺點:(1)它只能生成one-token的概念,對於常識知識來講還遠遠不夠;(2)LAMA的質量不如其餘兩種方法。
與COMET相比,TransOMCS能夠產生更多新穎的常識知識。同時,與LAMA不一樣,TransOMCS能夠生成multi-token概念。但TransOMCS也有兩個侷限性:(1)沒法提取長概念,很難找到精確的模式匹配;(2)因爲提取過程嚴格遵循模式匹配,所以可能提取語義不完整的知識。
實驗的最後,還設計了常識閱讀理解和平常對話生成兩個下游任務,結果顯示以下圖。對於閱讀理解任務,TransOMCS有助於提升整體的準確性,而COMET和LAMA對於此任務的貢獻很小。對於平常對話生成任務,TransOMCS在生成的響應質量上表現出顯著的提升。
簡單總結來講,講者這項工做證實了從語言知識到常識的可轉移性,提出了可自動獲取常識的可擴展的模型。另外,還設計了TransOMCS,它比OMCS大兩個數量級。
4、DISCOS: 從ASER到ATOMIC
除了TransOMCS這項工做,張洪銘博士還介紹了他參與的另外一項工做DISCOS,目前已被WWW 2021所接收。一樣針對先前常識獲取方法的侷限性,DISCOS常識獲取框架也但願自動從更實惠的語言知識資源中挖掘昂貴的複雜常識知識。
下圖是DISCOS的一個示例,來自ASER的最終事件經過指示相應話語關係的有向邊鏈接起來。DISCOS旨在將ASER中的話語邊轉換爲「若是-那麼」的常識邊。例如,ASER邊(「我餓了」,結果是「我吃了午飯」)將被轉換爲(若是「 X餓了」,那麼X想要「吃午餐」)常識元組。與OMCS不一樣,DISCOS只專一於更高階的SP,它的頭和尾一般是長且複雜的,所以須要用神經網絡代替固定模式。
DISCOS的整體框架以下圖,ATOMIC和ASER中的事件主體徹底不一樣,在ATOMIC中主體是諸如「Person X」和「 Person Y」的佔位符,而在ASER中則是具體人稱代詞「他」和「她」。爲了對齊兩個資源,首先將ATOMIC中的全部頭和尾映射到ASER中。形式上,須要一個映射函數將輸入的字符串映射到ASER中相同的節點格式。接下來,在給定節點和常識關係的狀況下,利用規則選擇候選話語邊。最後,採用一種新穎的常識知識種羣模型BERTSAGE來對候選常識元組的合理性進行評分。
以下表的實驗結果顯示,雖然COMET和DISCOS在質量上相差不大,可是在新穎性方面DISCOS大大勝於COMET。
總結來講,TransOMCS和DISCOS都證實了從語言知識到簡單常識和複雜常識的可轉移性,這就意味着過去費力且昂貴的方法是能夠被取代的,TransOMCS、DISCOS等自動獲取的方式不只便宜且可擴展性更優。
相關資料
論文連接:
https://arxiv.org/pdf/2005.00206.pdf
https://arxiv.org/pdf/2101.00154.pdf
源代碼:
https://github.com/HKUST-KnowComp/TransOMCS
https://github.com/HKUST-KnowComp/DISCOS-commonsense
整理:何文莉
審稿:張洪銘
排版:嶽白雪
AI TIME是清華大學計算機系一羣關注人工智能發展,並有思想情懷的青年學者們創辦的圈子,旨在發揚科學思辨精神,邀請各界人士對人工智能理論、算法、場景、應用的本質問題進行探索,增強思想碰撞,打造一個知識分享的彙集地。
更多資訊請掃碼關注
(直播回放:https://b23.tv/eVG4mp)
(點擊「閱讀原文」下載本次報告ppt)
本文分享自微信公衆號 - AI TIME 論道(lundaoAI)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。