Transformer的工作

要想學習BERT,需要先了解Transformer 1、Transformer的工作 2、傳統網絡結構的問題 RNN網絡不能做並行訓練,X1會用上X0的隱層特徵,X2會用上X1的隱層特徵,所以不能獨立計算(x0,x1,x2各自計算,算完合在一起),所以不能並行計算,所以層數不夠多,計算速度也不快。 Transformer注意力機制 注意力機制簡單點說就是"今天早上吃飯,上午上課,下午上課,晚上打籃
相關文章
相關標籤/搜索