Expander-基於Graph的機器學習軟件

      近來機器學習日新月異使計算機系統可以解決現實世界中的複雜問題。其中之一即是谷歌的大規模、基於圖的機器學習平臺。這一技術使用了半監督式學習方法,目前已經在谷歌大量的產品中獲得應用,其中就包括內置在谷歌最新手機Pixel中的聊天應用Allo。谷歌研究團隊最近發表了兩篇論文介紹這一技術。算法

  近來機器學習日新月異使計算機系統可以解決現實世界中的複雜問題。其中之一即是谷歌的大規模、基於圖的機器學習平臺,這是由 Google Research 的 Expander 團隊製做的。不少你平常使用的谷歌產品及功能背後,都有基於圖的機器學習,這是一種強大的工具,可以用於收件箱提醒、Allo 智能信息回覆等功能,基於圖的機器學習和深度神經網絡一塊兒,爲 Google Photos 最新的圖像識別系統提供動力。網絡

  

  在最低的監督下學習框架

  深度學習和機器學習近來的成功主要能夠歸功於這樣一些模型,它們在通過大規模(一般幾百萬的)帶標籤的數據訓練之後,展示出了極高的預測能力。咱們把這種機器學習模型叫作「監督學習」,由於它須要監督,也就是由人加了標籤的數據進行訓練。(相對的,直接在原始數據上運做,不須要任何監督的機器學習方法則被稱爲無監督學習。)機器學習

  可是,任務越是困難,越是難以找到足夠多的帶有標籤的高質量數據。實際上,對於每一個新的任務都採集帶標籤數據是一件不可能的事情,須要花費超出想象的時間和精力。由此,Expander 團隊纔有了開發新技術,用最少的監督支持大規模機器學習應用的想法。分佈式

  Expander 團隊的技術受人類如何在已有知識(帶標籤數據)和全新、未知的觀察結果(不帶標籤的數據)之間架起理解的橋樑的啓發。被稱爲「半監督」學習的這種方法,使系統可以在稀疏數據集上訓練。基於圖的半監督學習方法重要的優點在於,系統在學習的時候同時吸取帶有標籤的和不帶標籤的數據,這樣有助於改善數據的底層結構,此外,多種不一樣的信號能很輕鬆地混合在一塊兒(好比帶有原始特徵的知識圖譜相關信息),用單一的圖表示,系統能夠一次性學習。相比之下,神經網絡方法通常是先使用帶標籤的數據訓練,而後再向系統輸入不帶標籤的數據。函數

  圖學習:它是如何工做的? 工具

  在其核心,Expander的平臺結合了半監督機器學習和大規模基於圖的學習, 經過創建一個多圖數據表徵,這些數據表徵上的節點分別對應於某個物體或者概念以及邊,鏈接着具備類似性的概念。學習

  圖通常包含標籤數據(帶有已知輸出種類或者標籤的節點)以及非標籤數據(沒有標籤的節點)。Expander的框架隨後執行的是半監督學習,經過在圖中傳播標籤信息,來聯合性地標註全部節點。優化

  提及來容易作起來難。研究者必需要1)在最少的監督下(好比,只用少許的標籤數據),進行大規模的高效學習,2)在多模式的數據中進行操做(好比,異構表徵或者多源數據)以及3)解決難度較高的預測任務(好比,大型的、複雜的輸出空間),涉及到高維數據,這些數據可能會是噪聲數據。翻譯

  在整個學習進程中,其中一個最要的要素是圖以及鏈接的選擇。圖有各類各樣的大小和形狀,能與多種來源進行結合。研究者觀察發現,從結合來自多種類表徵數據(好比,圖像像素、物體種類 和聊天反應信息,例如Allo中的PhotoReply)的信息進行多圖學習,會帶來很好的效果。Expander 團隊的圖學習平臺能夠直接從數據中自動地生成圖,這些數據都是基於推斷或者已知的數據要素間關係的。數據能夠是結構的(好比,推理數據)或者非結構的(好比,從原始數據中提取的稀疏或者密集特徵表示)。

  爲了理解Expander的系統是如何學習的,能夠思考下面的圖像例子:

  

  在圖中,有兩種類型的節點:「灰色」表明非標籤數據,同時彩色節點表明的是標籤數據。節點數據間的關係經過邊進行表示,每個邊的粗細程度表明的是鏈接的強度。在這一個圖表上,咱們能明確地表示出半監督學習的難題:預測圖表中每個節點的顏色(紅或者藍)。須要說明的是,圖的結構和顏色選擇是根據任務做出的。好比,在研究團隊最近發表的論文中,研究者開發了一個收件箱智能回覆功能,郵件信息就被表示爲節點,而顏色則表明着用戶回覆的語義類型,(好比 對,太好了,頗有趣)。

  Expander 圖學習框架把這一任務當成一種優化問題進行解決。在最簡單的層次,它學習圖像中每個節點的顏色標籤,這樣,相鄰的標籤就能基於相互之間鏈接的強度來分配類似的顏色。一個較爲幼稚的辦法是嘗試一次性所有學完標籤分配,這種方法並不能擴展到大型的圖上。另外一個方法是,經過把標籤節點的顏色傳遞給相鄰節點,而後重複這一過程,這一問題能夠獲得正式的優化。在每一步中,經過觀察其相鄰的節點顏色,一個非標籤的節點能夠被分配一個標籤。研究者能夠經過這個方法升級每個節點,反覆操做,一直到整個圖都變成彩色。這一過程在優化類似的難題時很是有效,而且,循環的次序也被轉化爲一個獨特的解決方案。在圖傳播最後的解決方案看起來像這樣:

  實際上,咱們使用了複雜的優化函數來定義整個圖的結構,其中包含了半監督圖學習的額外信息和限制條件,最終導向難度更大的非凸問題。

  爲了解決這一挑戰,在去年發表的論文「 Large Scale Distributed Semi-Supervised Learning Using Streaming Approximation」(使用流近似的大規模分佈式半監督學習)中,研究者描述了一種全新的方法。論文介紹了一種流算法( streaming algorithm),以分佈式的方法,處理相鄰的節點中傳播的信息,這使得在大規模的圖中進行工做成爲可能。此外,它還解決了另外一個實際的問題,特別是,它保證了空間的複雜性或者系統的內存要求保持在一個穩定的狀態,無論任務有多難。好比,無論預測標籤的數量是2(正如上面的例子 )或者100萬或者10億,整個系統使用的都是相同數量的內存。這讓大範圍的採用成爲可能,好比天然語言理解、機器感知、用戶建模,甚至是涉及多模型的學習任務,例如文字、圖片和視頻的輸入。基於圖的語言學習能經過剩餘詞彙發現情感類型(比入, ROTFL的標籤是「有趣」,由於這個屢次反射的詞與「笑」這個詞有關)。

  學會幽默的語言圖(Language Graph)

  

  基於圖的機器學習的一個使用樣例是情緒標記(emotion labeling),郵箱智能回覆(Smart Reply for Inbox)裏也有這項語言理解任務,目標是要將天然語言文本根據細微的情緒分類。首先,一個神經網絡被用於一個語料庫,學會詞嵌入(word embeddings),也就是一個對每一個詞含義的數學向量表徵。而後,用稠密嵌入向量構建一個稀疏圖,節點表明單詞,鏈接(邊)表明詞與詞之間的語義關係。用相似的嵌入向量計算出邊的強度,忽略掉其中類似度很低的邊。

  基於圖的機器學習的應用

  Expander 團隊的機器學習系統現在被用於超大規模的圖(含有幾十億個節點和幾萬億條邊),進行識別和概念理解,對象包括天然語言、圖像、視頻和問詢(queries),驅動了提醒、問題回答、語言翻譯、視覺物體識別、對話理解等應用。

  Allo 發佈之後,千千萬萬用戶都體驗到了 Expander 團隊開發的系統提供的智能消息技術。此外,這種技術不只僅用於雲當中的大規模模型,好比 Android Wear 上週開放的 on-device 智能回覆功能,在從此咱們還但願將其用於解決互聯網規模的問題。

相關文章
相關標籤/搜索