語言模型的隨機採樣和相鄰採樣

時間 2020-07-20

標籤語言模型隨機採樣相鄰简体版

原文原文鏈接

天然語言數據能夠當作一種特殊的時間序列數據。對於這種時序數據的採樣主要有有隨機採樣和相鄰採樣兩種方式。二者都須要肯定一個batch的樣本數量batch_size和每一個樣本的時間步長num_steps。html 隨機採樣步驟：語料庫corpus_indices的長度爲 n n n，首先按照時間步長肯定可能的樣本的起始索引，可能的樣本起始索引最後被隨機打散。這裏注意：採樣的單個樣本的最後一個單詞不

>>阅读原文<<