注意力機制 pointer network

參考1:李宏毅 https://www.bilibili.com/video/av9770302?p=9 (上圖應該省略了一個歸一化層,模型通過標籤知道應該(x1,y1)對應的值是最大的,就會學習到這樣一個概率分佈,這裏直接將attention的weight作爲output的distribution)  把(x1,y1)丟進去產生新的z1,繼而產生新的attention的weight 當END的a
相關文章
相關標籤/搜索