Bert詳解(1)---從WE、ELMO、GPT到BERT

1. 計算機視覺中的預訓練 我們設計好網絡結構以後,對於圖像來說一般是CNN的多層疊加網絡結構,可以先用某個訓練集合比如訓練集合A或者訓練集合B對這個網絡進行預先訓練,在A任務上或者B任務上學會網絡參數,然後存起來以備後用。假設我們面臨第三個任務C,網絡結構採取相同的網絡結構,在比較淺的幾層CNN結構,網絡參數初始化的時候可以加載A任務或者B任務學習好的參數,其它CNN高層參數仍然隨機初始化。之後
相關文章
相關標籤/搜索