最近注意到在一些caffe模型中,偏置項的學習率一般設置爲普通層的兩倍。具體緣由能夠參考(https://datascience.stackexchange.com/questions/23549/why-is-the-learning-rate-for-the-bias-usually-twice-as-large-as-the-the-lr-for-t),貌似沒有文章提到這個。
Pytorch中也提供了對不一樣層設置不一樣學習率以及衰減因子的方法。
主要方法是傳遞一個dict給optimizer,而不是list。
python
下面以restnet18進行說明:
首先加載resnet18 模型,並打印其參數設置:學習
import torch, torchvision model = torchvision.models.resnet18() paras = dict(model.named_parameters()) for k, v in paras.items(): print(k.ljust(30), str(v.shape).ljust(30), 'bias:', v.requires_grad)
輸出爲:
優化
設置優化器參數,並打印ui
paras_new = [] for k, v in paras.items(): if 'bias' in k: paras_new += [{'params': [v], 'lr': 0.02, 'weight_decay': 0}] else: paras_new += [{'params': [v], 'lr': 0.01, 'weight_decay': 0.00004}] optimizer = torch.optim.SGD(paras_new, momentum=0.9) for p in optimizer.param_groups: outputs = '' for k, v in p.items(): if k is 'params': outputs += (k + ': ' + str(v[0].shape).ljust(30) + ' ') else: outputs += (k + ': ' + str(v).ljust(10) + ' ') print(outputs)
結果爲:
3d