Bert詳解(1)---從WE、ELMO、GPT到BERT

時間 2020-12-30

原文原文鏈接

1. 計算機視覺中的預訓練我們設計好網絡結構以後，對於圖像來說一般是CNN的多層疊加網絡結構，可以先用某個訓練集合比如訓練集合A或者訓練集合B對這個網絡進行預先訓練，在A任務上或者B任務上學會網絡參數，然後存起來以備後用。假設我們面臨第三個任務C，網絡結構採取相同的網絡結構，在比較淺的幾層CNN結構，網絡參數初始化的時候可以加載A任務或者B任務學習好的參數，其它CNN高層參數仍然隨機初始化。之後