GPT2模型訓練,50w個多輪中文對話語料


向AI轉型的程序員都關注了這個號👇👇👇python

機器學習AI算法工程   公衆號:datayx程序員



GPT2 for Chinese chitchat


項目描述

  • 本項目使用GPT2模型對中文閒聊語料進行訓練,使用 HuggingFace的transformers實現GPT2模型的編寫與訓練。web


  • 在閒暇時間用 GPT2-Chinese模型訓練了幾個長文本的生成模型,而且精讀了一遍做者的源碼,獲益匪淺,加深了本身對GPT2生成模型的一些理解,因而將GPT2模型用於閒聊對話的生成,很是感謝做者的分享。面試


  • 本項目中沿用了原項目中的部分結構和一些命名方式,同時也對不少代碼細節作出了本身實現。算法


  • 解碼器的邏輯使用了Temperature、Top-k Sampling和Nucleus Sampling等,可參考論文The Curious Case of Neural Text Degenerationflask

  • 代碼中給出了許多詳細的中文註釋,方便你們更好地理解代碼微信


本文相關代碼 、語料獲取方式:網絡

關注微信公衆號 datayx  而後回覆  閒聊  便可獲取。app

AI項目體驗地址 https://loveai.tech機器學習



運行環境

python3.六、 

transformers==2.1.一、

pytorch==1.3.1


項目結構

  • config:存放GPT2模型的參數的配置文件

  • data

    • train.txt:默認的原始訓練集文件,存放閒聊語料

    • train_tokenized.txt:對原始訓練語料進行tokenize以後的文件

  • model:存放模型

  • sample:存放人機閒聊生成的歷史聊天記錄

  • vocabulary:存放GPT2模型的字典

  • train.py:訓練代碼

  • interact.py:人機交互代碼


interact.py的參數

執行interact.py時,能夠嘗試經過調整topk、topp、repetition_penalty、max_history_len等參數,調整生成的效果。詳細的參數描述能夠查看interact.py的set_interact_args()函數

生成樣例








閒聊語料分享

常見中文閒聊

包含小黃雞語料、豆瓣語料、電視劇對白語料、貼吧論壇回帖語料、微博語料、PTT八卦語料、青雲語料等


50w中文閒聊語料

由做者GaoQ1提供的比較高質量的閒聊數據集,整理出了50w個多輪對話的語料




閱讀過本文的人還看了如下文章:


【全套視頻課】最全的目標檢測算法系列講解,通俗易懂!


《美團機器學習實踐》_美團算法團隊.pdf


《深度學習入門:基於Python的理論與實現》高清中文PDF+源碼


python就業班學習視頻,從入門到實戰項目


2019最新《PyTorch天然語言處理》英、中文版PDF+源碼


《21個項目玩轉深度學習:基於TensorFlow的實踐詳解》完整版PDF+附書代碼


《深度學習之pytorch》pdf+附書源碼


PyTorch深度學習快速實戰入門《pytorch-handbook》


【下載】豆瓣評分8.1,《機器學習實戰:基於Scikit-Learn和TensorFlow》


《Python數據分析與挖掘實戰》PDF+完整源碼


汽車行業完整知識圖譜項目實戰視頻(全23課)


李沐大神開源《動手學深度學習》,加州伯克利深度學習(2019春)教材


筆記、代碼清晰易懂!李航《統計學習方法》最新資源全套!


《神經網絡與深度學習》最新2018版中英PDF+源碼


將機器學習模型部署爲REST API


FashionAI服裝屬性標籤圖像識別Top1-5方案分享


重要開源!CNN-RNN-CTC 實現手寫漢字識別


yolo3 檢測出圖像中的不規則漢字


一樣是機器學習算法工程師,你的面試爲何過不了?


前海徵信大數據算法:風險機率預測


【Keras】完整實現‘交通標誌’分類、‘票據’分類兩個項目,讓你掌握深度學習圖像分類


VGG16遷移學習,實現醫學圖像識別分類工程項目


特徵工程(一)


特徵工程(二) :文本數據的展開、過濾和分塊


特徵工程(三):特徵縮放,從詞袋到 TF-IDF


特徵工程(四): 類別特徵


特徵工程(五): PCA 降維


特徵工程(六): 非線性特徵提取和模型堆疊


特徵工程(七):圖像特徵提取和深度學習


如何利用全新的決策樹集成級聯結構gcForest作特徵工程並打分?


Machine Learning Yearning 中文翻譯稿


螞蟻金服2018秋招-算法工程師(共四面)經過


全球AI挑戰-場景分類的比賽源碼(多模型融合)


斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)


python+flask搭建CNN在線識別手寫中文網站


中科院Kaggle全球文本匹配競賽華人第1名團隊-深度學習與特徵工程



不斷更新資源

深度學習、機器學習、數據分析、python

 搜索公衆號添加: datayx  

長按圖片,識別二維碼,點關注



機器學習算法資源社羣

不斷上傳電子版PDF資料

技術問題求解

 QQ羣號: 333972581  

長按圖片,識別二維碼




海淘美妝


本文分享自微信公衆號 - 機器學習AI算法工程(datayx)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。

相關文章
相關標籤/搜索