中文預訓練模型ERNIE2.0模型下載及安裝

2019年7月,百度ERNIE再升級,發佈持續學習的語義理解框架ERNIE 2.0,及基於此框架的ERNIE 2.0預訓練模型, 它利用百度海量數據和飛槳(PaddlePaddle)多機多卡高效訓練優點,經過深度神經網絡與多任務學習等技術,持續學習海量數據和知識。基於該框架的艾尼(ERNIE)預訓練模型,已累計學習10億多知識,包括詞法、句法、語義等多個維度的天然語言知識,有很強的通用語義表示能力,適用於各類NLP應用場景,效果提高明顯,使用高效、便捷。html

本篇內容教你們如何下載和使用!python

1、預訓練模型下載

ERNIE 2.0 英文Base 模型git

https://ernie.bj.bcebos.com/ERNIE_Base_en_stable-2.0.0.tar.gzgithub

包含預訓練模型參數、詞典vocab.txt、模型配置ernie_config.jsonjson

ERNIE 2.0 英文Large 模型網絡

https://ernie.bj.bcebos.com/ERNIE_Large_en_stable-2.0.0.tar.gz框架

包含預訓練模型參數、詞典vocab.txt、模型配置ernie_config.jsonide

2、數據下載

中文數據:https://ernie.bj.bcebos.com/task_data_zh.tgz學習

英文數據:因爲數據集協議問題,在這裏沒法直接提供英文數據集。GLUE 的數據下載方式請參考GLUE 主頁(https://gluebenchmark.com/tasks)以及GLUE 提供的數據下載代碼(https://gist.github.com/W4ngatang/60c2bdb54d156a41194446737ce03e2e)。ui

假設全部數據集下載放置的路徑爲$GLUE_DATA,將數據下載完畢後,執行 

 sh ./script/en_glue/preprocess/cvt.sh $GLUE_DATA

將完成全部數據的格式轉換,默認轉換後的數據會輸出到文件夾./glue_data_processed/。

 

3、PaddlePaddle安裝

本項目依賴於Paddle Fluid 1.5,請參考安裝指南

https://www.paddlepaddle.org.cn/#quick-start)進行安裝。

【重要】安裝後,須要及時的將CUDA、cuDNN、NCCL2 等動態庫路徑加入到環境變量LD_LIBRARY_PATH 之中,不然訓練過程當中會報相關的庫錯誤。具體的paddlepaddle配置細節請查閱:

https://www.paddlepaddle.org.cn/documentation/docs/zh/1.5/beginners_guide/quick_start_cn.html

若是您想了解更多的Paddle 的相關信息,例如針對實際問題建模、搭建本身網絡等,這裏有更多的來自官方的文檔供您參考:

  • 基本概念 :介紹了Fluid 的基本使用概念
  • 準備數據 :介紹使用Fluid 訓練網絡時,數據的支持類型及傳輸方法
  • 配置簡單的網絡: 介紹如何針對問題建模,並利用Fluid 中相關算子搭建網絡
  • 訓練神經網絡:介紹如何使用Fluid 進行單機訓練、多機訓練、以及保存和載入模型變量
  • 模型評估與調試:介紹在Fluid 下進行模型評估和調試的方法

ERNIE的其餘依賴列在requirements.txt文件中,使用如下命令安裝

pip install -r requirements.txt

 

 

劃重點!

查看ERNIE模型使用的完整內容和教程,請點擊下方連接,建議Star收藏到我的主頁,方便後續查看。

GitHubhttps://github.com/PaddlePaddle/ERNIE

版本迭代、最新進展都會在GitHub第一時間發佈,歡迎持續關注!

也邀請你們加入ERNIE官方技術交流QQ羣:760439550,可在羣內交流技術問題,會有ERNIE的研發同窗爲你們及時答疑解惑。

 

相關文章
相關標籤/搜索