空間向量模型lucene

把一篇文檔看做是一系列詞元的集合,每一個詞元都有一個權重,以下:
spa

Document A= {termX, termY, termZ …… termN}.net

Document B= {termX, termY, termZ …… termN}orm

DocumentVector = {weight1, weight2, weight3 …… weightN}blog

     weigh爲每一個分詞的映射到單位矩陣的,長度。這樣就把文檔放到一個N維的空間向量中(矩陣)【全部文檔分紅N個詞元,就N維向量矩陣;其中文檔D在m座標上的映射爲文檔D中的m詞元的權重】獲得向量座標系,對文檔信息的檢索,就轉化爲求兩個向量之間的夾角大小索引

        餘弦類似性是經過測量兩個向量內積空間的夾角的餘弦值來斷定兩個向量之間的類似程度。餘弦值越接近1,其夾角越接近0,表示兩個向量越類似。如圖:
                 
16.png 
兩個向量間的餘弦值能夠根據歐幾里得點積和量級公式推導:
17.png (9)
由式(9)以及理論,咱們能夠得出:
18.png (10) 
經過計算查詢向量與每個向量的夾角餘弦值就可獲得該查詢字符串與索引中的記錄的相關度 。
查詢詞後面加^N來設定此查詢詞的權重,默認是1,若是N大於1,則說明此查詢詞更重要,若是N小於1,則說明此查詢詞更不重要。^N表明每一個詞在矩陣中的長度大小。(用矩陣表明座標,是爲了我的擴展思路,給個傳送門http://blog.csdn.net/myan/article/details/1865397)文檔

相關文章
相關標籤/搜索