排序是搜索引擎的一個核心問題,早年的排序設計主要是使用排序模型,目前更多的是使用機器學習。排序模型的發展能夠分爲兩個階段,第一個階段是基於詞頻和位置統計的排序模型,如布爾模型、向量空間模型等;第二個階段是基於連接分析的排序模型,如PageRank模型等。然而排序模型在實際應用過程當中存在以下問題:機器學習
1.模型參數的調整不方便,當模型須要調整的參數數量很大的時候,傳統的排序模型不能很好的處理。性能
2.模型的整合不方便,每一個模型都有各自的優缺點,如何將他們整合成更優秀的排序模型。學習
3.排序模型的過擬合問題。搜索引擎
這些問題實際上是全部建模過程都會碰到的問題,經過機器學習處理這些問題能夠更加的方便,這個過程也稱爲排序學習,排序學習是目前的研究熱點之一。在排序學習中,起初人們使用較多的是有監督學習,因爲數據集的標註須要耗費大量的時間和人力,那麼如何更有效地利用未通過標註的數據成爲業界日益關心的問題,已經有不少工做利用半監督學習的方法使用未標註的數據提升排序模型的性能,還有一部分學者在研究利用用戶行爲特徵來調整模型。spa