論文閱讀 | Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

時間 2020-05-20

標籤論文閱讀 sentence bert embeddings using siamese networks 简体版

原文原文鏈接

簡述

在文本語義類似度等句子對的迴歸任務上，BERT , RoBERTa 拿到sota。html

可是，它要求兩個句子都被輸入到網絡中，從而致使巨大開銷：從10000個句子集合中找到最類似的sentence-pair須要進行大約5000萬個推理計算（約65小時）。網絡

BERT不適合語義類似度搜索，也不適合非監督任務，好比聚類。ide

解決聚類和語義搜索的一種常見方法是將每一個句子映射到一個向量空間，使得語義類似的句子很接近。函數

因而，也有人嘗試向BERT輸入單句，獲得固定大小的sentene embedding。最經常使用的方法是，平均BERT輸出層或使用第一個token（[CLS]的token）的輸出。但這卻產生了很是很差的sentence embedding，經常還不如averaging GloVe embeddings。學習

本文提出：Sentence-BERT（SBERT），對預訓練的BERT進行修改：使用Siamese和三級（triplet）網絡結構來得到語義上有意義的句子embedding->能夠生成定長的sentence embedding，使用餘弦類似度或Manhatten/Euclidean距離等進行比較找到語義類似的句子。idea

SBERT保證準確性的同時，可將上述提到的BERT/RoBERTa的65小時減小到5s。（計算餘弦類似度大概0.01s）spa

除了語義類似度搜索，也可用來clustering搜索。htm

做者在NLI data中fine-tune SBERT，用時不到20分鐘。blog