《Longformer: The Long-Document Transformer》()論文閱讀

前言 論文地址:https://arxiv.org/pdf/2004.05150.pdf 代碼地址:https://github.com/allenai/longformer 1、Introduction 雖然 self-attention 的效果很好,但是它所需要的內存和算力會隨序列呈平方增長。現在的方法大多是將上下文縮短或者劃分爲較小的序列,以限制這些序列再512的長度內。 爲了解決這個問題,
相關文章
相關標籤/搜索