一個簡單但很難超越的Sentence Embedding基線方法論-筆記

時間 2021-01-02

原文原文鏈接

源碼地址 https://github.com/PrincetonML/SIF 1.目的創建句向量 2.方法論文地址：第一步，對句子中的每個詞向量，乘以一個獨特的權值。這個權值是一個常數αα除以αα與該詞語頻率的和，也就是說高頻詞的權值會相對下降。求和後得到暫時的句向量。然後計算語料庫所有句向量構成的矩陣的第一個主成分uu，讓每個句向量減去它在uu上的投影（類似PCA）。

>>阅读原文<<