深度學習,知識圖譜,nlp學習經歷
獲取信息來源:英文paper研讀,吳恩達公開課,Hiton公開課,北大nlp教材,英文最新學術論文,中科院院士技術博客,知識圖譜專家課程
自學進修路線:基礎理論---專業理論(公開課,講義,教材,技術博客)---框架原理及使用:sparkMLlib,tensorflow---最新技術,專業理論提高(英文paper研讀,算法改進)---NLP、LSTM(句子類似度,雙向LSTM分詞,語義分析理解,機器翻譯)---聊天機器人技術研究
部分研究成果與原創技術博客,請登錄本人的技術博客:www.cnblogs.com/txq157(博客園)
生成式聊天機器人三種問題的解決方案:①上下文:Attention Model的引入②安全回答:更改損失函數爲MMI③一致性問題(同義句敏感度問題):在Decoder階段引入同義句
nlp研發經歷
1、中文分詞
實驗背景:目前深度學習與nlp結合是大勢所趨,在深度學習中佔據統治地位的是BiLSTM和Attention Model在本人成功改造了IK中文分詞,在模擬大容量文本分詞時速度提高了30%(2016年初實現)的基礎上,目前繼續深刻研究基於雙向LSTM分詞以及詞性標註,全面取代CRF。
2、Kmeans聚類算法改進
實驗背景:提取出文章的關鍵詞,有不少方案。基於深度學習語義理解方向是目前熱點,在使用w2v獲取到詞embedding後,進行詞聚類,而後從每一個簇中心中抽取出頻率最高的詞做爲文章的關鍵詞是比較不錯的方案。基於"相同語境中出現的詞語義相近"思想的w2v已經很成功,kmeans聚類算法因爲損失函數的非凸性很容易陷入局部最優解,聚類中心的選取方式以及k值的最優解須要改進。
實驗成果:通過本人長期不懈的努力,終於改進成功。改進後的效果:①可以使聚類中心的選取更加合理化,可以肯定k值的隱式最優解,聚類結果準確率高且穩定②增長數據歸一化處理③增長了聚類結果連續存儲的歸類算法。連接地址:http://www.cnblogs.com/txq157/p/6067098.html
3、文章摘要改進計劃:siamese lstm 解決句子類似度
實驗背景:文章摘要技術用在搜索領域,能夠改進搜索性能,節約用戶的搜索時間。運用傳統的依賴於知識庫方法摘取出文章的關鍵詞效果不佳。文章摘要技術,無論採用何種手段,離不開三個核心問題:①計算句子類似度②文摘句抽取③文摘句排序。文章摘要比較理想的效果是抽取出文章中的中心句,而不是特徵詞的拼湊。所以從語義理解的角度出發,第一種方案,依賴於w2v獲取到詞embedding,而後累加embedding組成句子,繼續累加組成文章語義表示,從中找出與文章語義最接近的句子語義表示。這個方案與傳統的統計建模相比,效果顯然好不少,但不是最佳方案。把CNN引入到nlp中也是一種方案,但不是最佳方案。語義理解的核心是以句子或者文章爲單位進行高階特徵抽取。在垂直搜索領域,lucene底層的文檔排重SimHash已經很成功,前提也是抽取文檔的特徵語句。如今提出一個更接近於理想效果的方案:運用siamese lstm獲取到句子的向量(與標準的lstm比較,這些句子的向量具備語義關聯),而後累加成文章的語義表示,從中找出與文章語義最相近的句子做爲中心句。所以核心問題是siamese lstm解決句子類似度。
深度學習nlp實驗
在nlp業內,語義理解和分析一直是難點,以前基於word2vector按照詞向量選擇每一個詞的候選詞而後組合成語句的方案,時間複雜度高且準確度不夠。這次實驗目的是探索基於2015年國外最新的研究成果 siamese lstm(區別於標準的lstm),以句子對兒或者文檔對兒爲輸入對象,以句子對兒的exp(-||h1-h2||)爲輸出,MSE構建loss function,基於ma結構,實驗準確度提高到90%以上,若是樣本足夠科學,人工打分足夠精準,準確度還會更高。
搭建tensorflow分佈式環境,siamese lstm學術論文的轉化,主要是tensorflow 代碼實施,模型訓練
基於句子對兒的siamese lstm的類似度解決方案的一次成功探索。html