Tensorflow的採樣方法：candidate sampling(zhuan)

時間 2019-11-19

標籤 tensorflow 採樣方法 candidate sampling zhuan 简体版

原文原文鏈接

zhuanzi:https://blog.csdn.net/u010223750/article/details/69948463

採樣介紹

假如咱們有一個多分類任務或者多標籤分類任務，給定訓練集git

咱們想學習到一個通用函數網絡

完整的訓練方法，如使用softmax或者Logistic迴歸須要對每一個訓練數據計算全部類函數

「candidate sampling」訓練方法包括爲每個訓練數據學習

C i = T i \cup S i

atom

spa

TensorFlow中各類採樣

其中：.net

softmax vs. logistic

在使用tensoflow的時候，咱們有時候會糾結選擇什麼樣的損失函數比較好，softmax和logistic在表達形式上是有點區別的，可是也不是很大，並且對於普通的softmax_cross_entropy_with_logits和sigmoid_cross_entropy_with_logits也都可以進行多分類任務，那麼他們之間的區別是什麼的？xml

就我我的所想到的，使用sigmoid_cross_entropy_with_logits和softmax_cross_entropy_with_logits的最大的區別是類別的排他性，在分類任務中，使用softmax_cross_entropy_with_logits咱們通常是選擇單個標籤的分類，由於其具備排他性，說白了，softmax_cross_entropy_with_logits須要的是一個類別機率分佈，其分佈應該服從多項分佈(也就是多項logistic regression)，咱們訓練是讓結果儘可能靠近這種機率分佈，不是說softmax_cross_entropy_with_logits不能進行多分，事實上，softmax_cross_entropy_with_logits是支持多個類別的，其參數labels也沒有限制只使用一個類別，當使用softmax_cross_entropy_with_logits進行多分類時候，以二類爲例，咱們能夠設置真實類別的對應labels上的位置是0.5,0.5，訓練使得這個文本儘可能傾向這種分佈，在test階段，能夠選擇兩個計算機率最大的類做爲類別標籤，從這種角度說，使用softmax_cross_entropy_with_logits進行多分，實際上相似於計算文本的主題分佈。blog

可是對於sigmoid_cross_entropy_with_logits，公式圖片

tensorflow提供了下面兩種candidate sample方法

tf.nn.nce_loss
tf.nn.sampled_softmax_loss

對比與以前討論的，從最上面的圖中的training loss採用的方法能夠知道， tf.nn.nce_loss使用的是logistic 而tf.nn.sampled_softmax_loss採用的是softmax loss，其實這二者的區別也主要在這兒，採用logistic loss的本質上仍是訓練

我的見解，對於多標籤多類別的分類任務使用Logistic比較好，對於多標籤單類別的分類任務使用softmax比較好，採樣中，採用tf.nn.sampled_softmax_loss訓練cbow模型比較好，而 tf.nn.nce_loss訓練skip-gram比較好。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。