1,TF-IDF (Term Frequence - Inverse Document Frequency)web
這個算法用來評價一個詞(Term)對整個文檔的重要程度,它只考慮了兩個因素:(1) 這個詞條在本文檔中出現的次數是否高 (2) 這個詞在全部文檔中出現的次數是否高。算法的思想很容易搞懂:在本文檔中出現次數多的詞兒天然是重要的,可是得懲罰那些經常使用詞彙,也就是全部文檔中出現的次數都很高詞。TF-IDF常常用在搜索引擎,用來計算query與document的相關度。算法
公式去看維基百科:http://en.wikipedia.org/wiki/Tf%E2%80%93idf數據庫
2,VSM 空間向量模型dom
是一個用來表示文本文件的代數模型。搜索引擎
維基百科:http://zh.wikipedia.org/wiki/%E5%90%91%E9%87%8F%E7%A9%BA%E9%96%93%E6%A8%A1%E5%9E%8Bgoogle
3,PageRank Algorithmspa
PageRank是用來衡量一個網頁質量的算法。下面這句話歸納的很是精闢:.net
「PageRank works by counting the number and quality of links to a page to determine a rough estimate of how important the website is. The underlying assumption is that more important websites are likely to receive more links from other websites.」blog
PageRank算法的輸出是一個機率分佈,這個機率分佈描述了任意一次點擊到達互聯網上的某一個網頁的機率(represent the likelihood that a person randomly clicking on links will arrive at any particular page)。索引
維基百科:http://en.wikipedia.org/wiki/PageRank
4,BM25
http://www.luokr.com/p/7
5,suggestion
在搜索框中輸入一個詞的時候,會出現提示詞,這一技術是如何實現的呢?
最基本的一種方法是trie樹+topK。當用戶輸入一個詞的時候,利用trie樹找到以這個詞爲前綴的全部詞,而後利用TopK算法找到熱度排名前K的幾個詞。固然,數據庫裏面會存每一個搜索過關鍵詞的頻度數據。
具體參考:http://blog.csdn.net/v_july_v/article/details/11288807
6,如何實現拼寫檢查
http://blog.afterthedeadline.com/2010/01/29/how-i-trie-to-make-spelling-suggestions/ (還未讀,有時間讀一讀~)
7,倒排索引 (reverse index)
(1)倒排索引是用來作什麼的?
索引都是用來尋找數據的。倒排索引就是用來根據內容查找文檔的。(在文檔中查找內容,叫正排索引)。經常使用在文檔檢索中。
(2)倒排索引的工做原理?
以下圖,給定一個單詞,就能夠知道全部出現過該詞的文檔。
能夠用這個詞在文檔出現的次數做爲權重
8,圖解google搜索過程