【從 0 開始學習 Transformer】拾遺:文章本身的問題與解釋

首先感謝中科院計算所王子和先生提供的寶貴意見。 由於文章結構的關係,爲了能夠同時兼顧代碼的真實和描述的通俗。我使用了一些可能會有一定誤導性的舉例說明。在這裏做一些解釋。 1. 關於 batch_size 在本系列上篇的 5.2.2. 使用向量化來提升效率,一節中。我使用了這樣的描述: 舉個例子:若有 batch_size 批次,每批次 N 條的 Query,Key。 其計算完全可以組織成 (bat
相關文章
相關標籤/搜索