阿里few shot learning文章的個人理解

先貼結構圖: 1、每次C類,每類K樣本,剩下的是測試集。 2、encoder層是BiLSTM+attention,得到編碼向量,假設隱含層個數是96個,句子長度是30,暫不考慮batch_size,那麼每個字的隱含層就是1*192向量,整個H就是30*192,那麼attention的最後輸出就是一個1*192的向量(計算公式如下,權重矩陣W是30*192的矩陣)。                
相關文章
相關標籤/搜索