聊聊Bert

在上一篇文章中我們提到了Transformer,詳見:聊聊Transformer 。在這篇文章中,我們講解一下BERT模型。 ** 1.BERT模型 ** BERT的全稱是Bidirectional Encoder Representation from Transformers,即雙向Transformer的Encoder,因爲decoder是不能獲要預測的信息的。模型的主要創新點都在pre-t
相關文章
相關標籤/搜索