論文筆記系列-DARTS: Differentiable Architecture Search

Summary 我的理解就是原本節點和節點之間操作是離散的,因爲就是從若干個操作中選擇某一個,而作者試圖使用softmax和relaxation(鬆弛化)將操作連續化,所以模型結構搜索的任務就轉變成了對連續變量\(α={α^{(i,j)}}\)以及\(w\)的學習。(這裏\(α\)可以理解成the encoding of the architecture)。 之後就是迭代計算\(w\)和\(α\)
相關文章
相關標籤/搜索