Hinton在論文《Improving neural networks by preventing co-adaptation of feature detectors》中提出了Dropout
。Dropout
用來防止神經網絡的過擬合。Tensorflow中能夠經過以下3中方式實現dropout。python
def dropout(x, keep_prob, noise_shape=None, seed=None, name=None):
其中,x
爲浮點類型的tensor,keep_prob
爲浮點類型的scalar,範圍在(0,1]之間,表示x中的元素被保留下來的機率,noise_shape
爲一維的tensor(int32類型),表示標記張量的形狀(representing the shape for randomly generated keep/drop flags
),而且noise_shape指定的形狀必須對x的形狀是可廣播的。若是x的形狀是[k, l, m, n],而且noise_shape爲[k, l, m, n],那麼x中的每個元素是否保留都是獨立,但若是x的形狀是[k, l, m, n],而且noise_shape爲[k, 1, 1, n],則x中的元素沿着第0個維度第3個維度以相互獨立的機率保留或者丟棄,而元素沿着第1個維度和第2個維度要麼同時保留,要麼同時丟棄。
關於Tensorflow中的廣播機制,能夠參考《TensorFlow 和 NumPy 的 Broadcasting 機制探祕》
最終,會輸出一個與x形狀相同的張量ret
,若是x中的元素被丟棄,則在ret中的對應位置元素爲0,若是x中的元素被保留,則在ret中對應位置上的值爲$原始值 \times \frac{1}{keep\_prob}$,這麼作是爲了使得ret中的元素之和等於x中的元素之和。網絡
def dropout(inputs, rate=0.5, noise_shape=None, seed=None, training=False, name=None):
參數inputs
爲輸入的張量,與tf.nn.dropout
的參數keep_prob不一樣,rate
指定元素被丟棄的機率,若是rate=0.1,則inputs中10%的元素將被丟棄,noise_shape與tf.nn.dropout
的noise_shape一致,training
參數用來指示當前階段是出於訓練階段仍是測試階段,若是training爲true(即訓練階段),則會進行dropout,不然不進行dropout,直接返回inputs。dom
上述的兩種方法都是針對dense tensor的dropout,但有的時候,輸入多是稀疏張量,仿照tf.nn.dropout
和tf.layers.dropout
的內部實現原理,自定義稀疏張量的dropout。測試
def sparse_dropout(x, keep_prob, noise_shape): keep_tensor = keep_prob + tf.random_uniform(noise_shape) drop_mask = tf.cast(tf.floor(keep_tensor), dtype=tf.bool) out = tf.sparse_retain(x, drop_mask) return out * (1.0/keep_prob)
其中,參數x
和keep_prob
與tf.nn.dropout
一致,noise_shape
爲x中非空元素的個數,若是x中有4個非空值,則noise_shape爲[4],keep_tensor
的元素爲[keep_prob, 1.0 + keep_prob)的均勻分佈,經過tf.floor
向下取整獲得標記張量drop_mask
,tf.sparse_retain
用於在一個 SparseTensor 中保留指定的非空值。spa
def nn_dropout(x, keep_prob, noise_shape): out = tf.nn.dropout(x, keep_prob, noise_shape) return out def layers_dropout(x, keep_prob, noise_shape, training=False): out = tf.layers.dropout(x, keep_prob, noise_shape, training=training) return out def sparse_dropout(x, keep_prob, noise_shape): keep_tensor = keep_prob + tf.random_uniform(noise_shape) drop_mask = tf.cast(tf.floor(keep_tensor), dtype=tf.bool) out = tf.sparse_retain(x, drop_mask) return out * (1.0/keep_prob) if __name__ == '__main__': inputs1 = tf.SparseTensor(indices=[[0, 0], [0, 2], [1, 1], [1, 2]], values=[1.0, 2.0, 3.0, 4.0], dense_shape=[2, 3]) inputs2 = tf.sparse_tensor_to_dense(inputs1) nn_d_out = nn_dropout(inputs2, 0.5, [2, 3]) layers_d_out = layers_dropout(inputs2, 0.5, [2, 3], training=True) sparse_d_out = sparse_dropout(inputs1, 0.5, [4]) with tf.Session() as sess: sess.run(tf.global_variables_initializer()) (in1, in2) = sess.run([inputs1, inputs2]) print(in1) print(in2) (out1, out2, out3) = sess.run([nn_d_out, layers_d_out, sparse_d_out]) print(out1) print(out2) print(out3)
tensorflow中,稀疏張量爲SparseTensor
,稀疏張量的值爲SparseTensorValue
。3種dropout的輸出以下,scala
SparseTensorValue(indices=array([[0, 0], [0, 2], [1, 1], [1, 2]], dtype=int64), values=array([ 1., 2., 3., 4.], dtype=float32), dense_shape=array([2, 3], dtype=int64)) [[ 1. 0. 2.] [ 0. 3. 4.]] [[ 2. 0. 0.] [ 0. 0. 0.]] [[ 0. 0. 4.] [ 0. 0. 0.]] SparseTensorValue(indices=array([], shape=(0, 2), dtype=int64), values=array([], dtype=float32), dense_shape=array([2, 3], dtype=int64))