數學之美:如何確定網頁和查詢的相關性 TF-IDF

前面介紹瞭如何下載網頁並建立索引。但通過關鍵詞和索引的相關性,一個搜索引擎仍然能夠提供幾十萬的頁面,這時候就需要如何把好的頁面排序在前面。前面已經介紹通過PageRank來衡量頁面質量。顯然PageRank只能找出質量好的頁面。但無法衡量該頁面與關鍵詞的匹配程度,這就需要一種技術來衡量頁面與查詢的相關性。 科學度量「IF-IDF」: 當我們知道一個關鍵詞「原子能的應用」時,顯然,直覺上那些網頁中包
相關文章
相關標籤/搜索