代碼倉庫: https://github.com/brandonlyg/cute-dlpython
定義:git
fit(self, data, epochs, **kargs)
data: 訓練數據集Dataset對象。
epochs: 訓練輪數, 把data中的每一批數據遍歷訓練一次稱爲一輪。
kargs:
val_data: 驗證數據集。
val_epochs: 執行驗證的訓練輪數. 每val_epochs輪訓練驗證一次。
val_steps: 執行驗證的訓練步數. 每val_steps步訓練驗證一次. 只有val_steps>0纔有效, 優先級高於val_epochs。
listeners: 事件監聽器FitListener對象列表.github
訓練過程當中, fit方法會把觸發的事件派發到全部的FitListener對象, FitListener對象本身決定處理或忽略。正則表達式
history的格式:算法
{ 'loss': [], 'val_loss': [], 'steps': [], 'val_pred': darray, 'cost_time': float }
代碼文件: cutedl/session.py。
fit方法比較複雜, 先看主幹代碼:session
#初始化訓練歷史數據結構 history = { 'loss': [], 'val_loss': [], 'steps': [], 'val_pred': None, 'cost_time': 0 } #打開訓練開關, 當調用stop_fit方法後會關閉這個開關, 中止訓練。 self.__fit_switch = True #獲得參數 val_data = kargs.get('val_data') val_epochs = kargs.get('val_epochs', 1) val_steps = kargs.get('val_steps', 0) listeners = kargs.get('listeners', []) if val_data is None: history['val_loss'] = None #計算將會訓練的最大步數 if val_epochs <= 0 or val_epochs >= epochs: val_epochs = 1 if val_steps <= 0: val_steps = val_epochs * data.batch_count #開始訓練 step = 0 history['cost_time'] = time.time() for epoch in range(epochs): if not self.__fit_switch: break #觸發並派發事件 event_dispatch("epoch_start") for batch_x, batch_y in data.as_iterator(): if not self.__fit_switch: break #pdb.set_trace() loss = self.batch_train(batch_x, batch_y) step += 1 if step % val_steps == 0: #使用驗證數據集驗證模型 event_dispatch("val_start") val_loss, val_pred = validation() record(loss, val_loss, val_pred, step) event_dispatch("val_end") #顯示訓練進度 display_progress(epoch+1, epochs, step, val_steps, loss, val_loss) else: display_progress(epoch+1, epochs, step, val_steps, loss) event_dispatch("epoch_end") #記錄訓練耗時 history['cost_time'] = time.time() - history['cost_time'] return history
主幹代碼中使用了一些局部函數, 這些局部函數每一個都是實現了一個小功能。數據結構
派發事件:app
def event_dispatch(event): #pdb.set_trace() for listener in listeners: listener(event, history)
執行驗證:框架
def validation(): if val_data is None: return None, None val_pred = None #保存全部的預測結果 losses = [] #保存全部的損失值 #分批驗證 for batch_x, batch_y in val_data.as_iterator(): #pdb.set_trace() y_pred = self.__model.predict(batch_x) loss = self.__loss(batch_y, y_pred) losses.append(loss) if val_pred is None: val_pred = y_pred else: val_pred = np.vstach((val_pred, y_pred)) #計算平均損失 loss = np.mean(np.array(losses)) return loss, val_pred
記錄訓練歷史:dom
def record(loss, val_loss, val_pred, step): history['loss'].append(loss) history['steps'].append(step) if history['val_loss'] is not None and val_loss is not None : history['val_loss'].append(val_loss) history['val_pred'] = val_pred
顯示訓練進度:
def display_progress(epoch, epochs, step, steps, loss, val_loss=-1): prog = (step % steps)/steps w = 20 str_epochs = ("%0"+str(len(str(epochs)))+"d/%d")%(epoch, epochs) txt = (">"*(int(prog * w))) + (" "*w) txt = txt[:w] if val_loss < 0: txt = txt + (" loss=%f "%loss) print("%s %s"%(str_epochs, txt), end='\r') else: txt = "loss=%f, val_loss=%f"%(loss, val_loss) print("") print("%s %s\n"%(str_epochs, txt))
設模型每一層的損失函數爲:
X是數據, W是權重參數,b是偏移量參數. L2算法是在原損失函數上加上W範數平方的衰減量, 獲得一個新的損失函數:
λ是衰減率, 是一個至關於學習率的超參數。對於一個模型來講, 只有輸出層的損失函數是明確知道的, 其餘層是不明確的。不過不要緊, 更新參數是在反向傳播階段,這個時候須要的是梯度, 並不關心原函數的形式, 新損失函數的梯度爲:
其中
能夠在反向傳播時候獲得. 在梯度降低法訓練模型時, 更新參數的表達式變成:
這個表達式的含義是: 在使用學習率更新參數以前,先把參數(W的範數)縮小到原來的(1-λ)倍。
代碼文件: cutedl/optimizer.py
修改__call__代碼:
def __call__(self, model): params = self.match(model) for p in params: self.update_param(model, p)
match方法用來把名字匹配的參數過濾出來。
update_param方法實現實際的更新參數操做, 由子類實現。
match實現:
''' 獲得名字匹配pattern的參數 ''' def match(self, model): params = [] rep = re.compile(self.pattern) for ly in model.layer_iterator(): for p in ly.params: if rep.match(p.name) is None: continue params.append(p) return params
這個方法使用正則表達式經過參數名匹配參數, 並返回匹配的參數列表。pattern是正則表達式屬性, 子類能夠經過覆蓋這個屬性, 改變匹配行爲。
''' L2 正則化 ''' class L2(Optimizer): ''' damping 參數衰減率 ''' def __init__(self, damping): self.__damping = damping def update_param(self, model, param): #pdb.set_trace() param.value = (1 - self.__damping) * param.value
代碼文件: cutedl/session.py。
首先爲__init__ 方法添加參數:
''' genoptms: list[Optimizer]對象, 廣義參數優化器列表, 列表中的優化器將會在optimizer以前按順序執行 ''' def __init__(self, model, loss, optimizer, genoptms=None): self.__genoptms = genoptms
而後在batch_train方法中調用優化器:
#執行廣義優化器更新參數 if self.__genoptms is not None: for optm in self.__genoptms: optm(self.__model)
向前傳播的函數:
p是咱們要給出的常數。算法使用p構造隨機變量A, 使得A=1的機率爲p, A=0的機率爲1-p. 對這個函數的直觀解釋是: A將有1-p的機率被丟棄掉(置爲0), p的機率被保留, 若是被保留, 它將會被拉伸1/p倍。 這個函數有一個頗有用的性質, 它的輸入和輸出的均值不變:
反向傳播的梯度爲:
代碼文件: nn_layers.py。
Dropout類實現了隨機丟棄算法。向前傳播實現:
def forward(self, in_batch, training=False): kp = self.__keep_prob #pdb.set_trace() if not training or kp <= 0 or kp>=1: return in_batch #生成[0, 1)之間的均價分佈 tmp = np.random.uniform(size=in_batch.shape) #保留/丟棄索引 mark = (tmp <= kp).astype(int) #丟棄數據, 並拉伸保留數據 out = (mark * in_batch)/kp self.__mark = mark return out
隨機丟棄層傳入的參數是keep_prob保留機率, 這意味這丟棄的機率爲1 - keep_prob. 只有處於訓練狀態且0<keep_prob<1才執行丟棄操做。代碼中的變量mark就是用保留機率構造隨機變量, 它服從參數爲keep_prob的伯努利分佈。
反向傳播實現:
def backward(self, gradient): #pdb.set_trace() if self.__mark is None: return gradient out = (self.__mark * gradient)/self.__keep_prob return out
目前階段所須要的代碼已經完成,如今咱們來進行驗證,驗證代碼位於: examples/mlp/linear-regression-1.py。
首先咱們來構造一個欠擬合模型做爲對比基準。
''' 過擬合對比基準 ''' def fit0(): print("fit0") model = Model([ nn.Dense(128, inshape=1, activation='relu'), nn.Dense(256, activation='relu'), nn.Dense(1) ]) model.assemble() sess = Session(model, loss=losses.Mse(), optimizer = optimizers.Fixed(), ) history = sess.fit(ds, 200000, val_data=val_ds, val_epochs=1000, listeners=[ FitListener('val_end', callback=lambda h:on_val_end(sess, h)) ] ) fit_report(history, report_path+'00.png', 10)
能夠看到這裏再也不須要本身寫訓練函數, 直接調用fit方法便可實現自動訓練。on_val_end函數監聽val_end事件, 它的功能是在盡是條件時調用Session的stop_fit方法中止訓練, 這裏中止訓練的條件是: 最初的10次驗證事後, 檢查每次驗證的val_loss值, 若是連續10次沒有變得更小就中止訓練。
擬合報告:
''' 使用L2正則化緩解過擬合 ''' def fit1(): print("fit1") model = Model([ nn.Dense(128, inshape=1, activation='relu'), nn.Dense(256, activation='relu'), nn.Dense(1) ]) model.assemble() sess = Session(model, loss=losses.Mse(), optimizer = optimizers.Fixed(), #L2正則化 genoptms = [optimizers.L2(0.00005)] ) history = sess.fit(ds, 200000, val_data=val_ds, val_epochs=1000, listeners=[ FitListener('val_end', callback=lambda h:on_val_end(sess, h)) ] ) fit_report(history, report_path+'01.png', 10)
擬合報告:
從訓練損失值圖像上看有明顯的緩解跡象。
''' 使用dropout緩解過擬合 ''' def fit2(): print("fit2") model = Model([ nn.Dense(128, inshape=1, activation='relu'), nn.Dense(256, activation='relu'), nn.Dropout(0.80), #0.8的保留機率 nn.Dense(1) ]) model.assemble() sess = Session(model, loss=losses.Mse(), optimizer = optimizers.Fixed(), ) history = sess.fit(ds, 200000, val_data=val_ds, val_epochs=1000, listeners=[ FitListener('val_end', callback=lambda h:on_val_end(sess, h)) ] ) fit_report(history, report_path+'02.png', 15)
擬合報告:
從訓練損失值圖像上隨機丟棄的效果更好一些。
驗證結果代表, cute-dl目前能夠用不多代碼實現模型的自動分批訓練, 和linear-regression.py相比, linear-regression-1.py中已經不須要關注具體的訓練過程了, 而且可以獲得基本訓練歷史記錄。另外, L2正則化優化器和Dropout層也能有效地緩解過擬合。 本階段目標基本達成。 到目前爲止, 用來驗證框架的是一個線性迴歸任務, 數據集是從一個二次函數採樣獲得, 這個任務本質上是訓練模型預測連續值。可是在深度學習領域,還要求模型可以預測離散值,即可以執行分類任務。下個階段, 將會給框架添加新的損失函數, 使之可以支持分類任務, 並討論這些損失函數的數學性質。