向AI轉型的程序員都關注了這個號👇👇👇python
機器學習AI算法工程 公衆號:datayx程序員
GPT2 for Chinese chitchat
項目描述
本項目使用GPT2模型對中文閒聊語料進行訓練,使用 HuggingFace的transformers實現GPT2模型的編寫與訓練。web
在閒暇時間用 GPT2-Chinese模型訓練了幾個長文本的生成模型,而且精讀了一遍做者的源碼,獲益匪淺,加深了本身對GPT2生成模型的一些理解,因而將GPT2模型用於閒聊對話的生成,很是感謝做者的分享。面試
本項目中沿用了原項目中的部分結構和一些命名方式,同時也對不少代碼細節作出了本身實現。算法
解碼器的邏輯使用了Temperature、Top-k Sampling和Nucleus Sampling等,可參考論文The Curious Case of Neural Text Degenerationflask
代碼中給出了許多詳細的中文註釋,方便你們更好地理解代碼微信
本文相關代碼 、語料獲取方式:網絡
關注微信公衆號 datayx 而後回覆 閒聊 便可獲取。app
AI項目體驗地址 https://loveai.tech機器學習
運行環境
python3.六、
transformers==2.1.一、
pytorch==1.3.1
項目結構
config:存放GPT2模型的參數的配置文件
data
train.txt:默認的原始訓練集文件,存放閒聊語料
train_tokenized.txt:對原始訓練語料進行tokenize以後的文件
model:存放模型
sample:存放人機閒聊生成的歷史聊天記錄
vocabulary:存放GPT2模型的字典
train.py:訓練代碼
interact.py:人機交互代碼
interact.py的參數
執行interact.py時,能夠嘗試經過調整topk、topp、repetition_penalty、max_history_len等參數,調整生成的效果。詳細的參數描述能夠查看interact.py的set_interact_args()函數
生成樣例
閒聊語料分享
常見中文閒聊
包含小黃雞語料、豆瓣語料、電視劇對白語料、貼吧論壇回帖語料、微博語料、PTT八卦語料、青雲語料等。
50w中文閒聊語料
由做者GaoQ1提供的比較高質量的閒聊數據集,整理出了50w個多輪對話的語料
閱讀過本文的人還看了如下文章:
《深度學習入門:基於Python的理論與實現》高清中文PDF+源碼
2019最新《PyTorch天然語言處理》英、中文版PDF+源碼
《21個項目玩轉深度學習:基於TensorFlow的實踐詳解》完整版PDF+附書代碼
PyTorch深度學習快速實戰入門《pytorch-handbook》
【下載】豆瓣評分8.1,《機器學習實戰:基於Scikit-Learn和TensorFlow》
李沐大神開源《動手學深度學習》,加州伯克利深度學習(2019春)教材
【Keras】完整實現‘交通標誌’分類、‘票據’分類兩個項目,讓你掌握深度學習圖像分類
如何利用全新的決策樹集成級聯結構gcForest作特徵工程並打分?
Machine Learning Yearning 中文翻譯稿
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)
中科院Kaggle全球文本匹配競賽華人第1名團隊-深度學習與特徵工程
不斷更新資源
深度學習、機器學習、數據分析、python
搜索公衆號添加: datayx
長按圖片,識別二維碼,點關注
機器學習算法資源社羣
不斷上傳電子版PDF資料
技術問題求解
QQ羣號: 333972581
長按圖片,識別二維碼
海淘美妝
本文分享自微信公衆號 - 機器學習AI算法工程(datayx)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。