做者進行了普通的nmt 以及加入了attention 機制的nmt兩組實驗git
我使用了公司四核(4*24G) RAM 的 Tesla M40 顯卡 進行train & infer(使用 nvidia-smi 查看nvidia 顯卡信息)github
實驗結果代表在訓練數據較少的狀況下,使用attention 的nmt 的翻譯質量仍是比不加attention的翻譯強很多的,這個結果是
經過將兩者的翻譯結果分別於參考翻譯進行粗略獲得的,固然使用定量的bleu指標也能夠獲得同樣的結論,加入attention的nmt bleu
score 要比普通的nmt 高很多。具體結果見下圖1,2:
bash
直觀看上去,確實是attention nmt 的翻譯質量更勝一籌。框架
教程中給出的第二個實驗是德語到英語的翻譯(WMT German-English)學習
FailedPreconditionError (see above for traceback): Attempting to use uninitialized value dynamic_seq2seq/decoder/multi_rnn_cell/cell_1/basic_lstm_cell/kernel [[Node: dynamic_seq2seq/decoder/multi_rnn_cell/cell_1/basic_lstm_cell/kernel/read = Identity[T=DT_FLOAT, _device="/job:localhost/replica:0/task:0/device:GPU:0"] (dynamic_seq2seq/decoder/multi_rnn_cell/cell_1/basic_lstm_cell/kernel)]]
de-en infer fail 這個問題暫時沒有找到緣由。測試
de-en train from stratch 沒有問題,可是由於訓練數據巨大,因此應該須要訓練好久(幾天吧)google
text summary 在nmt的框架下,能夠看作是單語言的簡化(通常的翻譯是兩個語言之間),原文是source,
summary 是target翻譯
--src=ori --tgt=sum
其他的參數相似指定code