注意力機制 pointer network

時間 2021-01-02

原文原文鏈接

參考1：李宏毅 https://www.bilibili.com/video/av9770302?p=9 （上圖應該省略了一個歸一化層，模型通過標籤知道應該(x1,y1)對應的值是最大的，就會學習到這樣一個概率分佈，這裏直接將attention的weight作爲output的distribution）把(x1,y1)丟進去產生新的z1,繼而產生新的attention的weight 當END的a

>>阅读原文<<