GLU、sparsemax激活函數

2. sparsemax Softmax: softmax缺點:每個向量位置都有值。 文章From Softmax to Sparsemax:A Sparse Model of Attention and Multi-Label Classification 提出了能夠輸出稀疏概率的Sparsemax。 這裏把輸入 z 和某個分佈 p 的歐式距離最小化。 一種具體的實現是, 參考: 論文;
相關文章
相關標籤/搜索