2017年就這麼悄無聲息地過去了。在工業界,2016年是推薦的元年,2017年是中國的AI元年,這意味着路漫漫其修遠兮~,而學術界永遠會超前於工業界,有些時候不免也會有些一廂情願……這些線索代表:①AI的發展很是迅速②學術界和工業界不一樣步的現象是共存的。過去的一年在nlp領域裏,知識圖譜的發展是最爲耀眼的,最爲尷尬的仍然是chatbot的多輪對話。知識圖譜底層更高於RDF層次的語言被提出並進行研究中,關係抽取,遠程監督,深度學習與GAN的引入改進等等……chatbot的對話策略以及評價標準目前工業界仍然茫然~html
nlp的核心是語義理解,語義理解,一方面要有更加豐富的,靈活的,自適應能力強的語義表示,另外一方面,又要有好的理解用戶對話的策略,徹底依賴某一種技術手段,好比無限誇大深度學習是不切實際的的天真想法。在語義理解方面,從來都是概括總結能力和演繹推理能力結合,也就是深度學習和語言規則,對話策略,狀態結合起來。本人相信,在語義理解方面,單純依靠聯結主義,很快就會遇到天花板,這也是近幾年知識圖譜,多輪對話的狀態跟蹤,上下文建模愈來愈重要的緣由。前面提到的第一方面,其實就是用深度學習學習語言的語義向量表示,不一樣的是,我提出了豐富,靈活和自適應這些關鍵性的詞語。有什麼不一樣呢,下文會有詳細論述。關於第二方面,因爲本人剛接觸,不敢妄加評論,本paper主要論述第一方面,接下來進入重點。算法
關於第一方面,語義表示,獲取到它以後作類似度運算是nlp裏常常遇到的場景,我就把他做爲切入點。語義表示,我我的有一條主線:詞語——>句子——>文章。先說詞語,詞語是一句話的基本單元,每一個詞語對句子的語義貢獻度是不一樣的,不少詞語有歧義現象,個別詞語是不常見詞,每一個詞語在句子中都有固定的位置和順序,詞語與詞語之間存在着近義,反義和不相關的關係。聯結主義如何捕捉到這些特性是詞語語義表示的研究方向!若是能捕捉到這些特性,將大大增長語義理解能力,這點是毋庸置疑的。咱們先說一下著名的word2vector,看看他捕捉到了哪些特性,看看他有哪些缺陷,如何尋求改進。首先能夠確定的是,w2v解決了詞語之間的近義,反義問題,可是並不完美。解決詞語之間的關係,主要依靠上下文,每一個詞語的語義,與他的上下文機率分佈是對應的,這是word2vector成功的地方,同時也是他失敗的地方:①對於多義詞,他的上下文機率分佈是多個,不是單一的,而word2vector的建模,顯然是hard的②在建模時沒有考慮到上下文的順序,好比A:謝霆鋒的爸爸是誰?B:謝霆鋒是誰的爸爸?這兩句中的爸爸是不一樣的含義,w2v是無能爲力的。除此以外,詞語的語義平滑處理,增長自適應能力也是必要的。另外,在訓練過程當中,因爲語料分佈的不均勻性,必然會出現語義傾斜問題,這是不可抗拒的因素(在機器學習訓練中,數據傾斜是常見的現象)。基於以上問題,提出如下改進方案:①用高斯混合分佈改進w2v的建模,讓獲取的詞語向量表示可以作到上下文交叉②基於第一點,在此基礎上融合TF_IDF思想,進行語義平滑處理,而且在有必要的狀況下進行降維處理,注意,我這裏強調的是必要的狀況下,也就是否是必須的,看場景,由於在情感分析中,他不是必須的③關於上下文的順序問題,目前還只能與RNN結合,並無成型的方案出來。之前在多義詞的理解上,更多的是用CRF進行序列化識別,大量依賴人工語義標註,若是能在語義表示上得到突破,實現非監督學習的預測,是最佳的。好比蘋果這個詞,他多是電腦,手機,logo等等。若是在一句話中,好比我想吃蘋果,用高斯混合分佈模型作出的w2v就能夠捕捉到蘋果的多個上下文的機率分佈,吃是它的上文,這麼簡短的句子,把他的上文吃和蘋果自己累加起來就能夠了,不用所有累加,而後與電腦,水果,手機的詞的embedding作元積,運用非監督學習的方法就能夠識別出來他的語義了。這是本人理論上的猜測,2018年將重點攻破這個難題。另一方面,過去一年SIF的提出,有可借鑑的地方,用非監督學習方法作句子的語義表示,下面咱們來講說句子語義表示。機器學習
關於句子的語義表示,大可能是監督學習方法,而SIF是非監督學習方法。仍然以A:謝霆鋒的爸爸是誰?B:謝霆鋒是誰的爸爸?爲例,若是用SIF作類似度運算的話,這兩句話的語義是相同的,是否是很失敗?沒錯,任何一個算法都有他的缺陷和適用場景!對於初學者來講,對於算法的理解,前期可能更加關注於公式推導上面,其實他不是算法的核心。本人認爲,一個算法的提出,必定是先有場景和需求,或者是前面的算法有改進的空間。場景高於算法這點是毋庸置疑的。一個學者提出算法的初衷,靈感必定來自於前面的算法的積累,不是憑空產生的。由於SIF仍然依賴於w2v,也就是說SIF改進w2v的同時也繼承了他的缺點,呵呵。對於詞語上下文的順序,目前只能依賴於RNN。RNN模型裏,最著名的就是LSTM和BiLSTM了,他的性能瓶頸是句子長度超過30步之後,記憶能力直線降低,緣由是你們都會的BPTT。也就是LSTM只是緩解了RNN的記憶消失問題,沒有從根本上解決,由於這個東西沒法根本解決。人在閱讀長文本的時候,也存在記憶消失,這是正常現象。說到這裏,不少人想到了attention model,沒錯!過去一年,谷歌發佈了Attention is all you need的paper,而且開源了代碼,關於Hierarchical attention的paper,dual global and local attention的研究都是熱點。在情感分析,個性化推薦,摘要領域裏大放異彩。注意力的對齊模型的改進,進展也很迅速。global 和local attention分別捕捉句子的全局特徵的局部特徵,在語義理解方面是很是必要的。好比A用戶購買一條裙子後,發佈了評論:總體狀況仍是能夠的,雖然這條裙子有點兒小瑕疵,可是,我很喜歡她的顏色,感受特別溫暖。而後給了4分。接下來,B用戶也買了一樣的裙子,評論:這條裙子穿起來特別舒服,真心喜歡它的布料,摸起來超好。而後也給了4分。你們有沒有注意到,前面提到2016年纔是中國的搜索推薦元年,爲何這麼晚?以前的傳統的基於內容的推薦,基於協同過濾的算法,FP_GROWTH增加樹,ALS矩陣分解等等算法,都沒法真正作到個性化。why?目前的國內的個性化推薦,還很初級,挑戰仍是很大的。我說一下我我的對個性化的見解。性能
關於個性化,我我的的理解是,好比A和B同時喜歡一個視頻,A用戶是喜歡它裏面的插曲,好比蓮花爭霸裏面的笑紅塵,B用戶喜歡裏面的孫二孃的妹妹,長得漂亮。若是你用傳統的算法, 捕捉到了用戶瀏覽過這個視頻不少次,而後就天真地認爲用戶喜歡武俠視頻,給他瘋狂地推薦這種類型的視頻,我想用戶是崩潰的,即便用戶有了相似於上面的評論,顯示行爲,你作情感分析預測,也是失敗的。why?不少用戶使用了今日頭條時間久了都疲乏了,感受推薦的東西都不太適合。如今我要正式地闡述一下本人對個性的理解:1.推薦的本質是用戶特徵和商品特徵的語義類似度問題,沒錯,我把它歸類於nlp中的語義類似度範疇。2.既然是語義類似度問題,如何捕捉到二者的特徵是關鍵,這關係到個性化。所謂個性化,本人認爲,由於用戶是活人,不是死的,其興趣必然會變化,並且我的喜愛不一樣,就像上面的,A打4分,B用戶也打4分,可是明顯B用戶很是喜歡那條裙子。個性化就是要捕捉到:①時序性:用戶的興趣變化②我的習慣特徵:差別化。若是在特徵抽取時把這兩點結合起來,分別獲得用戶和商品的語義表示,作到動態變化的模型,而後作語義類似度運算,效果必定高於傳統的cf。好比前面提到的是視頻,若是能作到針對不一樣的用戶,抽取出不一樣的局部特徵,好比A用戶喜歡裏面的插曲,B用戶喜歡裏面的演員顏值,還有雖然都是打4分,可是情感傾向明顯不一樣。這些問題,現有的技術能夠嘗試和解決,只不過須要方案和技術整合。因此,場景須要仍是第一位的。學習
再回到句子的語義表示問題,有了這些表示,接下來能夠進行語義類似度運算了。過去一年,SIF和siamese lstm表現優異。先說場景:咱們作句子語義類似度運算,達到的效果是類似度爲85%,91%等等,並非粗糙地分類爲0和1這麼簡單!所以convnet,DSSM等根本達不到個人要求,不能達到state of the art。去年在siamese lstm的實驗裏,這個模型的核心是須要保留的,但仍是有些粗糙,須要引入attention model,進一步提高語義理解的能力,不作詳細論述了。視頻
下面到篇章的語義。過去一年,文章摘要的研究進展緩慢一些,以前本人提出的方案爲siamese lstm + hierarchical attention,本質爲:①上下文壓縮②語義類似度運算。這是典型的抽取式的摘要。但實際上,有不少機器寫做的需求,好比代替人工寫新聞,諮詢。或者是複述,這都屬於生成式的摘要。而本人的研究方向爲二者結合。對於一些相對較短的新聞資訊,抽取式的能夠知足,並且目前抽取式的比生成式的容易一些,準確率也高。htm
以上是對語義表示的簡單總結,語義理解除了語義表示和類似度運算外,從此更多的場景是依賴多輪對話,slot填充策略,DST,DM,這也是今年的研究重點。總結起來,今年要作的研究:①個性化推薦的突破②高斯混合分佈的w2v模型改進,非監督學習的語義理解③抽取式的和生成式的摘要結合。在天然語言生成這塊兒,重點突破seq2seq生成語句的可讀性。blog
語義理解是複雜的,是一個完整的生態圈兒,須要研發平臺級別的,而不是簡簡單單一個音箱之類的。這意味着,作產品的AI創業公司,是遊走在邊緣的,很容易被淘汰。好了,到此爲止,很少說了。繼承
下篇博客,深刻細化語義理解:http://www.cnblogs.com/txq157/p/8445513.htmlget
更多本人精彩博客推薦:http://www.cnblogs.com/txq157/p/7425781.html