Transformer的工作

時間 2020-12-30

標籤 BERT 简体版

原文原文鏈接

要想學習BERT，需要先了解Transformer 1、Transformer的工作 2、傳統網絡結構的問題 RNN網絡不能做並行訓練，X1會用上X0的隱層特徵，X2會用上X1的隱層特徵，所以不能獨立計算(x0,x1,x2各自計算，算完合在一起)，所以不能並行計算，所以層數不夠多，計算速度也不快。 Transformer注意力機制注意力機制簡單點說就是"今天早上吃飯，上午上課，下午上課，晚上打籃

>>阅读原文<<