2020李宏毅學習筆記——33.Network Compression(2_6)

3.爲什麼要pruning? 首先有一個問題:既然最後要得到一個小的network,那爲什麼不直接在數據集上訓練小(有local minima的問題)的模型,而是先訓練大模型? 解釋一:模型越大,越容易在數據集上找到一個局部最優解,而小模型比較難訓練,有時甚至無法收斂。 解釋二:2018年的一個發表在ICLR的大樂透假設(Lottery Ticket Hypothesis)觀察到下面的現象:首先看
相關文章
相關標籤/搜索