百度艾尼（ERNIE）常見問題彙總及解答

時間 2019-11-16

標籤百度 ernie 常見問題彙總解答简体版

原文原文鏈接

1、ERNIE安裝配置類問題

Q1：最適合ERNIE2.0的PaddlePaddle版本是？
A1：PaddlePaddle版本建議升級到1.5.0及以上版本。
Q2：ERNIE能夠在哪些系統上使用?
A2：優化後各個系統都會支持，目前建議在Linux系統使用。git

2、ERNIE使用類問題

Q1：ERNIE目前能作哪些任務？
A1：（1）基於ERNIE模型Fine-tune後，直接能作的任務以下：
• 詞性標註任務，請參考：https://aistudio.baidu.com/aistudio/projectDetail/109660
• 閱讀理解任務，請參考：https://github.com/PaddlePaddle/ERNIE/blob/develop/README.zh.md
• 分類任務，請參考：https://github.com/PaddlePaddle/ERNIE/blob/develop/README.zh.md
• 多標籤分類，請參考：https://github.com/PaddlePaddle/PaddleHub/tree/release/v1.1.0/demo/multi-label-classification
• 排序任務；github

（2）須要用戶在ERNIE的基礎上作開發後能作的任務以下：

• 文本生成任務，目前須要用戶在ERNIE的基礎上開發生成任務的Fine-tune代碼。同時咱們也在研發專門適配生成的通用預訓練模型，預期效果更好，後續進展請多多關注。
• 實體關係抽取任務，目前須要用戶在ERNIE的基礎上開發信息抽取任務的Fine-tune代碼。工具

Q2：ERNIE實現檢索功能了嗎？
A2：實現了,使用cls embedding或者頂層全部詞的表示作pooling當作sentence encoder的輸出。性能

Q3：ERNIE能作信息流推薦嗎？
A3：能夠，具體來說,能夠基於 ERNIE 抽取Document 和 User 的向量做爲對文章和用戶的語義建模，而後對 Document 的語義特徵離線創建索引庫，在線端根據用戶的語義表達去索引庫中召回語義相關性較高的文章。學習

Q4：ERNIE能用於長文本嗎？
A4：能夠，當前能夠考慮將長句拆分，分別輸入ERNIE後再拼接的方式使用ERNIE。不過咱們也在研發專門適配長文本的通用預訓練模型，後續進展請多多關注。優化

Q5：ERNIE能夠用C++或者Java調用嗎？
A5：ERNIE預測時，經過C++調用的接口正在優化中。Java暫不支持。spa

Q6：ERNIE有沒有在本身的corpus上進行預訓練的教程？
A6：2.0的中文預訓練代碼暫時沒有開源，能夠參考1.0教程。教程連接： https://github.com/PaddlePaddle/ERNIE/blob/develop/README.zh.md#%E9%A2%84%E8%AE%AD%E7%BB%83-ernie-10。code

Q7：ERNIE2.0的中文預訓練模型發佈了嗎？
A7：爲了讓你們更方便、快捷、高效的使用ERNIE，咱們正在作易用性更強的ERNIE平臺化服務工做，屆時會與ERNIE2.0模型同步開放給你們，歡迎你們使用。orm

Q8：ERNIE支持Python3嗎？
A8：支持。blog

Q9：ERNIE都支持哪些語言嗎？
A9：目前支持中文簡體、英文。

3、ERNIE工具類問題

Q1：ERNIE能作在線服務嗎？性能怎麼樣？
A1：能夠。在線服務的性能問題能夠經過模型蒸餾的方案解決，咱們 ERNIE Tiny 模型也在研發中，能夠大幅度提高在線預測性能，ERNIE Tiny 模型後續會逐步開源，能夠多多關注。

在輕量級、模型壓縮方面ERNIE將會推出ERNIE Slim技術和ERNIE Tiny模型。其中
ERNIE Slim基於數據蒸餾技術，以大規模無監督語料爲橋樑，輔以數據加強和混合策略，利用百倍提速的輕量級DNN模型去蒸餾ERNIE模型，從而達到顯著加速的效果，達到工業級上線要求；

ERNIE Tiny基於模型蒸餾技術，在預訓練階段利用淺層ERNIE模型去蒸餾深層ERNIE模型的輸出分佈，同時引入subword粒度來減小輸入句子長度。預計發佈的3層ERNIE Tiny模型相對於ERNIE模型在效果有限降低狀況下，速度提高4.2倍左右。

Q2：ERNIE有提供相似Bert-as-Service的服務嗎？
A2：有。近期（預計11月初）將開源。

4、ERNIE資料類問題

Q1：ERNIE有詳細的使用教程麼？
A1：有，請參考：https://github.com/PaddlePaddle/ERNIE/blob/develop/README.zh.md

Q2：ERNIE的論文下載地址？
A2：https://arxiv.org/abs/1907.12412

Q3：ERNIE的GitHub項目地址？
A3：https://github.com/PaddlePaddle/ERNIE

5、其它問題

Q1：BERT與ERNIE誰更強？
A1：從效果來看，ERNIE的效果領先於BERT。BERT、XLNet等主流方法都強調經過強力的 Transformer 直接構建語言模型，而 ERNIE 2.0 經過多任務預訓練的方法增強模型學到的語言知識。

ERNIE 2.0 經過增量學習的方式更新，也就是說能夠經過自定義的 NLP 任務微調已訓練模型，增強預訓練效果。

ERNIE2.0 模型在英語任務上不少都優於 BERT 和XLNet，在 7 個GLUE 任務上取得了最好的結果；中文任務上，ERNIE 2.0 模型在全部9 箇中文NLP 任務上全面優於 BERT。

Q2：ERNIE效果領先BERT是否得益於更多數據?
A2：否。咱們對比了不一樣模型公佈的數據量，BERT: 3.3B (tokens), ERNIE:7.9 B (tokens), XLNet: 32.8B (tokens)，目前版本的數據規模是XLNet的1/4，同時ERNIE 沒有使用人工直接標註的數據，全部數據能夠經過無監督或者弱監督的方式大量獲得。

Q3：ERNIE能夠理解爲是知識圖譜+BERT嗎？
A3：不是，ERNIE沒有利用圖譜信息，而是直接從文本中學習知識。

Q4：ERNIE的多任務持續學習是怎麼實現的？
A4：ERNIE2.0 的預訓練任務是一個逐步增長的過程，先訓練 Task1, 而後逐步增長到多個 TaskN，多個 Task 的訓練是按照必定的機率分佈對 Task 進行採樣，好比: 第一個 batch 訓練Task1, 第2個batch 訓練 Task2 。訓練過程當中是經過多機多卡訓練，有些卡去訓練任務1，有些卡訓練任務2。因爲目前預訓練代碼還未開源，用戶暫時沒法添加新任務作預訓練。

劃重點！！！

掃碼關注百度NLP官方公衆號，獲取百度NLP技術的第一手資訊！

加入ERNIE官方技術交流羣（760439550），百度工程師實時爲您答疑解惑！

當即前往GitHub（ github.com/PaddlePaddle/ERNIE ）爲ERNIE點亮Star，立刻學習和使用起來吧！