GPT2模型訓練，50w個多輪中文對話語料

時間 2020-11-30

標籤 python 程序員 web 面試算法 flask 微信網絡 app 機器學習欄目 Python 简体版

原文原文鏈接

向AI轉型的程序員都關注了這個號👇👇👇python

機器學習AI算法工程公衆號：datayx程序員

GPT2 for Chinese chitchat

項目描述

本項目使用GPT2模型對中文閒聊語料進行訓練，使用 HuggingFace的transformers實現GPT2模型的編寫與訓練。web
在閒暇時間用 GPT2-Chinese模型訓練了幾個長文本的生成模型，而且精讀了一遍做者的源碼，獲益匪淺，加深了本身對GPT2生成模型的一些理解，因而將GPT2模型用於閒聊對話的生成，很是感謝做者的分享。面試
本項目中沿用了原項目中的部分結構和一些命名方式，同時也對不少代碼細節作出了本身實現。算法
解碼器的邏輯使用了Temperature、Top-k Sampling和Nucleus Sampling等，可參考論文The Curious Case of Neural Text Degenerationflask
代碼中給出了許多詳細的中文註釋，方便你們更好地理解代碼微信

本文相關代碼、語料獲取方式：網絡

關注微信公衆號 datayx 而後回覆閒聊便可獲取。app

AI項目體驗地址 https://loveai.tech機器學習

運行環境

python3.六、

transformers==2.1.一、

pytorch==1.3.1

項目結構

config:存放GPT2模型的參數的配置文件
data

train.txt:默認的原始訓練集文件，存放閒聊語料
train_tokenized.txt:對原始訓練語料進行tokenize以後的文件

model:存放模型
sample:存放人機閒聊生成的歷史聊天記錄
vocabulary:存放GPT2模型的字典
train.py:訓練代碼
interact.py:人機交互代碼

interact.py的參數

執行interact.py時，能夠嘗試經過調整topk、topp、repetition_penalty、max_history_len等參數，調整生成的效果。詳細的參數描述能夠查看interact.py的set_interact_args()函數

生成樣例

閒聊語料分享

常見中文閒聊

包含小黃雞語料、豆瓣語料、電視劇對白語料、貼吧論壇回帖語料、微博語料、PTT八卦語料、青雲語料等。

50w中文閒聊語料

由做者GaoQ1提供的比較高質量的閒聊數據集，整理出了50w個多輪對話的語料

閱讀過本文的人還看了如下文章：

【全套視頻課】最全的目標檢測算法系列講解，通俗易懂！

《美團機器學習實踐》_美團算法團隊.pdf

《深度學習入門：基於Python的理論與實現》高清中文PDF+源碼

python就業班學習視頻，從入門到實戰項目

2019最新《PyTorch天然語言處理》英、中文版PDF+源碼

《21個項目玩轉深度學習：基於TensorFlow的實踐詳解》完整版PDF+附書代碼

《深度學習之pytorch》pdf+附書源碼

PyTorch深度學習快速實戰入門《pytorch-handbook》

【下載】豆瓣評分8.1,《機器學習實戰:基於Scikit-Learn和TensorFlow》

《Python數據分析與挖掘實戰》PDF+完整源碼

汽車行業完整知識圖譜項目實戰視頻(全23課)

李沐大神開源《動手學深度學習》，加州伯克利深度學習（2019春）教材

筆記、代碼清晰易懂！李航《統計學習方法》最新資源全套！

《神經網絡與深度學習》最新2018版中英PDF+源碼

將機器學習模型部署爲REST API

FashionAI服裝屬性標籤圖像識別Top1-5方案分享

重要開源！CNN-RNN-CTC 實現手寫漢字識別

yolo3 檢測出圖像中的不規則漢字

一樣是機器學習算法工程師，你的面試爲何過不了？

前海徵信大數據算法：風險機率預測

【Keras】完整實現‘交通標誌’分類、‘票據’分類兩個項目，讓你掌握深度學習圖像分類

VGG16遷移學習，實現醫學圖像識別分類工程項目

特徵工程(一)

特徵工程(二) :文本數據的展開、過濾和分塊

特徵工程(三):特徵縮放,從詞袋到 TF-IDF

特徵工程(四): 類別特徵

特徵工程(五): PCA 降維

特徵工程(六): 非線性特徵提取和模型堆疊

特徵工程(七)：圖像特徵提取和深度學習

如何利用全新的決策樹集成級聯結構gcForest作特徵工程並打分？

Machine Learning Yearning 中文翻譯稿

螞蟻金服2018秋招-算法工程師（共四面）經過

全球AI挑戰-場景分類的比賽源碼(多模型融合)

斯坦福CS230官方指南：CNN、RNN及使用技巧速查（打印收藏）

python+flask搭建CNN在線識別手寫中文網站

中科院Kaggle全球文本匹配競賽華人第1名團隊-深度學習與特徵工程

不斷更新資源

深度學習、機器學習、數據分析、python

搜索公衆號添加： datayx

長按圖片，識別二維碼，點關注

機器學習算法資源社羣

不斷上傳電子版PDF資料

技術問題求解

QQ羣號： 333972581

長按圖片，識別二維碼

海淘美妝

本文分享自微信公衆號 - 機器學習AI算法工程（datayx）。
若有侵權，請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」，歡迎正在閱讀的你也加入，一塊兒分享。

相關文章

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<