文本生成(seq2seq)

問題:根據指定文本的風格生成。例如三國演義


如何實現?編碼

首先須要瞭解語言模型token

什麼是語言模型?

語言模型是給定序列,預測下一個token出現的機率分佈。
就好像是完型填空,只不過這個空在最後。而選項是整個單詞表。
例如:一個女孩看見我,忽然臉()
若是訓練語料是我平生的簡介的話,那麼根據訓練語料能夠推測出,這個下面這個字大機率是「紅」。入門

怎麼作呢?

作文本生成的方法有不少。我做爲剛入門都算不上的新手。寫一下最簡單的解決辦法吧。方法

用LSTM 對文本編碼 取出全部時間的編碼或者最後時間的編碼。而後去預測下一個token。新手

例如:咱們從Si:「一個女孩看見我,"開始生成(固然也能夠用一個表明開始的字符)。 對這個句子做爲x,而後標籤是「突」,最後計算將預測的機率分佈和真實的機率分佈作交叉熵損失計算,而後就是咱們你們都知道的反向傳播balabalabalala...
如今,就和普通的分類問題一毛同樣了。語言

x:一個女孩看見我, y:突
x:個女孩看見我,突 y:然
x:女孩看見我,忽然 y:臉
x:孩看見我,忽然臉 y:紅時間

這裏假設根據前8個token預測下一個token。標籤

其他的作法。

之後會學到新的生成方法,再來更新。
(要是能生成女友就行了)字符

相關文章
相關標籤/搜索