Multi-task 模型在推薦場景的一些應用和工作

MMOE   左側的shallow tower部分和右側的main tower部分,論文中提到的採用類似Wide&Deep模型結構就是指這兩個tower,其中shallow tower可以對應Wide部分,main tower對應的是Deep部分 存在n個Expert網絡,每個Expert網絡的輸出最終會經過Gating Network進行加權平均(比較簡單的線性加權,Attention的思想)
相關文章
相關標籤/搜索