text retrieval week2

一、TF-IDF加權的向量空間模型 1. TF加權 這裏的x,y不再是0,1表示,而是看該詞出現的次數 2. IDF加權 M:文檔數目 k:包含該詞的文檔數目 在已TF加權下得到的值再乘以IDF值,即爲最終的TF-IDF加權 二、TF變換: 將c(w,d)轉換爲TF(w,d) 目的:限制高頻詞的權重 經過不斷的嘗試,我們獲得了魯棒且有效的次線性TF轉換函數,命名爲BM25轉換 經驗表明b=0.75
相關文章
相關標籤/搜索