中文預訓練模型ERNIE2.0模型下載及安裝

2019年7月,百度ERNIE再升級,發佈持續學習的語義理解框架ERNIE 2.0,及基於此框架的ERNIE 2.0預訓練模型, 它利用百度海量數據和飛槳(PaddlePaddle)多機多卡高效訓練優點,經過深度神經網絡與多任務學習等技術,持續學習海量數據和知識。基於該框架的艾尼(ERNIE)預訓練模型,已累計學習10億多知識,包括詞法、句法、語義等多個維度的天然語言知識,有很強的通用語義表示能力,適用於各類NLP應用場景,效果提高明顯,使用高效、便捷。html

本篇內容教你們如何下載和使用!git

1、預訓練模型下載

ERNIE 2.0 英文 Base 模型
https://ernie.bj.bcebos.com/E...
包含預訓練模型參數、詞典 vocab.txt、模型配置 ernie_config.json
ERNIE 2.0 英文 Large 模型
https://ernie.bj.bcebos.com/E...
包含預訓練模型參數、詞典 vocab.txt、模型配置 ernie_config.jsongithub

2、數據下載

中文數據:https://ernie.bj.bcebos.com/t...
英文數據:因爲數據集協議問題,在這裏沒法直接提供英文數據集。GLUE 的數據下載方式請參考GLUE 主頁(https://gluebenchmark.com/tas... GLUE 提供的數據下載代碼(https://gist.github.com/W4nga... )。
假設全部數據集下載放置的路徑爲$GLUE_DATA,將數據下載完畢後,執行
sh ./script/en_glue/preprocess/cvt.sh $GLUE_DATA
將完成全部數據的格式轉換,默認轉換後的數據會輸出到文件夾./glue_data_processed/json

3、PaddlePaddle安裝

本項目依賴於 Paddle Fluid 1.5,請參考安裝指南
https://www.paddlepaddle.org.... )進行安裝。
【重要】安裝後,須要及時的將 CUDA、cuDNN、NCCL2 等動態庫路徑加入到環境變量 LD_LIBRARY_PATH 之中,不然訓練過程當中會報相關的庫錯誤。具體的paddlepaddle配置細節請查閱:
https://www.paddlepaddle.org....
若是您想了解更多的 Paddle 的相關信息,例如針對實際問題建模、搭建本身網絡等,這裏有更多的來自官方的文檔供您參考:
基本概念 :介紹了 Fluid 的基本使用概念
準備數據 :介紹使用 Fluid 訓練網絡時,數據的支持類型及傳輸方法
配置簡單的網絡: 介紹如何針對問題建模,並利用 Fluid 中相關算子搭建網絡
訓練神經網絡:介紹如何使用 Fluid 進行單機訓練、多機訓練、以及保存和載入模型變量
模型評估與調試:介紹在 Fluid 下進行模型評估和調試的方法
ERNIE的其餘依賴列在requirements.txt文件中,使用如下命令安裝 pip install -r requirements.txt網絡

劃重點!
查看ERNIE模型使用的完整內容和教程,請點擊下方連接,建議Star收藏到我的主頁,方便後續查看。
GitHub:https://github.com/PaddlePadd...
star.png框架

版本迭代、最新進展都會在GitHub第一時間發佈,歡迎持續關注!ide

也邀請你們加入ERNIE官方技術交流QQ羣:760439550,可在羣內交流技術問題,會有ERNIE的研發同窗爲你們及時答疑解惑。
二維碼.png學習

相關文章
相關標籤/搜索