2019年7月,百度ERNIE再升級,發佈持續學習的語義理解框架ERNIE 2.0,及基於此框架的ERNIE 2.0預訓練模型, 它利用百度海量數據和飛槳(PaddlePaddle)多機多卡高效訓練優點,經過深度神經網絡與多任務學習等技術,持續學習海量數據和知識。基於該框架的艾尼(ERNIE)預訓練模型,已累計學習10億多知識,包括詞法、句法、語義等多個維度的天然語言知識,有很強的通用語義表示能力,適用於各類NLP應用場景,效果提高明顯,使用高效、便捷。html
本篇內容教你們如何下載和使用!python
ERNIE 2.0 英文Base 模型git
https://ernie.bj.bcebos.com/ERNIE_Base_en_stable-2.0.0.tar.gzgithub
包含預訓練模型參數、詞典vocab.txt、模型配置ernie_config.jsonjson
ERNIE 2.0 英文Large 模型網絡
https://ernie.bj.bcebos.com/ERNIE_Large_en_stable-2.0.0.tar.gz框架
包含預訓練模型參數、詞典vocab.txt、模型配置ernie_config.jsonide
中文數據:https://ernie.bj.bcebos.com/task_data_zh.tgz學習
英文數據:因爲數據集協議問題,在這裏沒法直接提供英文數據集。GLUE 的數據下載方式請參考GLUE 主頁(https://gluebenchmark.com/tasks)以及GLUE 提供的數據下載代碼(https://gist.github.com/W4ngatang/60c2bdb54d156a41194446737ce03e2e)。ui
假設全部數據集下載放置的路徑爲$GLUE_DATA,將數據下載完畢後,執行
sh ./script/en_glue/preprocess/cvt.sh $GLUE_DATA
將完成全部數據的格式轉換,默認轉換後的數據會輸出到文件夾./glue_data_processed/。
本項目依賴於Paddle Fluid 1.5,請參考安裝指南
(https://www.paddlepaddle.org.cn/#quick-start)進行安裝。
【重要】安裝後,須要及時的將CUDA、cuDNN、NCCL2 等動態庫路徑加入到環境變量LD_LIBRARY_PATH 之中,不然訓練過程當中會報相關的庫錯誤。具體的paddlepaddle配置細節請查閱:
https://www.paddlepaddle.org.cn/documentation/docs/zh/1.5/beginners_guide/quick_start_cn.html
若是您想了解更多的Paddle 的相關信息,例如針對實際問題建模、搭建本身網絡等,這裏有更多的來自官方的文檔供您參考:
ERNIE的其餘依賴列在requirements.txt文件中,使用如下命令安裝
pip install -r requirements.txt
劃重點!
查看ERNIE模型使用的完整內容和教程,請點擊下方連接,建議Star收藏到我的主頁,方便後續查看。
GitHub:https://github.com/PaddlePaddle/ERNIE
版本迭代、最新進展都會在GitHub第一時間發佈,歡迎持續關注!
也邀請你們加入ERNIE官方技術交流QQ羣:760439550,可在羣內交流技術問題,會有ERNIE的研發同窗爲你們及時答疑解惑。