一個簡單但很難超越的Sentence Embedding基線方法論-筆記

源碼地址 https://github.com/PrincetonML/SIF 1.目的 創建句向量 2.方法 論文地址: 第一步,對句子中的每個詞向量,乘以一個獨特的權值。這個權值是一個常數αα除以αα與該詞語頻率的和,也就是說高頻詞的權值會相對下降。求和後得到暫時的句向量。 然後計算語料庫所有句向量構成的矩陣的第一個主成分uu,讓每個句向量減去它在uu上的投影(類似PCA)。
相關文章
相關標籤/搜索