摘要 ide
檢索結果聚類,能夠有效地反映出特定Query下,檢索結果內容的分佈,能夠清晰地描述出結果中的各個類別,對Query結果的展現方式亦再也不是傳統1頁若干條結果的流式輸送,而是採用展示核心詞或表明詞的方式,簡明扼要地從不一樣維度提示核心信息,免去用戶從新構造Query再搜索或在大量檢索結果中尋找、定位所需內容的過程。網站
關鍵詞:搜索引擎,搜索結果,聚類搜索引擎
咱們首先來看一個例子:對於Query「蘋果」,在Google(www.google.com.hk)的檢索結果第一頁中,包含了如下若干內容:蘋果公司的首頁(繁簡各1個)、蘋果手機及相關產品(3個)、蘋果公司的新聞(2個),其它蘋果公司的相關網站(股票、企業檔案、論壇等,4個)。11條結果中,都是與蘋果(公司)緊密相關的內容,或者是蘋果公司自己的一些信息(如股票、員工中毒等新聞),或者是蘋果公司的相關新產品(Iphone、Ipad等),但不管從哪一個角度上描述,都沒有能跳出蘋果公司的範圍。因爲蘋果公司的大量用戶需求,使得蘋果公司獨佔Google首頁檢索結果。google
圖1 Google中蘋果檢索結果分佈視頻
對於蘋果這樣一個有多重含義的Query,大多數用戶的大多數需求均是對於蘋果公司周邊的需求,如蘋果的產品、新聞等,對Google中蘋果前20頁結果進行了下簡單的統計,如圖1所示:(1)蘋果公司的相關內容爲130條,除第一頁的內容外,還包含喬布斯、APP、越獄等,(2)蘋果種植,17條結果包括了栽培、交易、市場行情等,(3)健康相關話題12條結果,包括了蘋果養分價值、減肥等,(4)臺灣蘋果日報9條結果,(5)各式百科9條結果,(6)圖片、視頻應用4條結果,(7)其它有關教育、家居、基金等共19條結果。能夠明顯看出至少還有三類用戶,分別是蘋果栽培、蘋果養生、臺灣蘋果日報的受衆。但因爲搜索引擎展示的問題致使這些需求被淹沒了。索引
檢索結果聚類則指望經過對檢索結果的類聚,將相關內容聚合成一類,對每一類別提取出表明性標籤,用於用戶引導,達到區分不一樣人羣不一樣需求的問題。能夠認爲在原有的流式結果基礎上增長資源導航功能,引導用戶更快速地定位本身的所需資源。相似於Google檢索頁面中的Search Tools,只不過生成的標籤集是根據Query動態生成的,向用戶展現資源引導,如圖2所示(理想結果)事件
圖2 「蘋果」的理想聚類結果圖片
但檢索結果聚類能作的事遠不止只這些,它可以呈現一個資源維度的立體層次結構。如圖-3所示,這一體系充分揭示了檢索結果中數據的分佈狀況,可以從不一樣層面描繪每個可能的具體需求,如都是對蘋果的需求,有的人關注的是Iphone、Ipad,有的人則更關注喬幫主,相信找越獄方法的也大有人在,而果農的需求及少數健康人士對蘋果養分學的探索也可獲得知足。資源
檢索結果聚類在對用戶引導方面有本身的優點。目前大多數用戶引導是經過分析用戶行爲數據而得到的,這種方式可以充分反映用戶的需求,即用戶想要什麼。但還有一個問題,就是網頁中包含什麼,用戶的需求是否必定在網頁中找獲得恰當的或足夠的內容進行知足。也就是說檢索結果聚類是需求知足的過程,只有當用戶的需求與資源中包含的內容相匹配時,用戶才能得到滿意的結果。get
以韓寒爲例,如圖-4所示,用戶需求可能爲(百度某日「相關搜素」結果)博客,方舟子,微博,身高,馬英九,老婆等,而資源中表現的數據爲,博客,方舟子,微博,郭敬明,語錄,代筆門等,從圖中能夠看出,用戶需求與資源中都包含與韓寒緊密相關的博客、微博、方舟子,說明資源與需求可以良好地匹配;單從用戶需求方面看,對於熱點、隱私、八卦等內容更感興趣,受突發事件影響較大,這也正反映出用戶羣體的獵奇、圍觀心理,而資源則更加穩定,從韓寒早期齊名的「郭敬明」到較新的「代筆門」均有所體現,相對於用戶需求而言更強調與韓寒相關的數據資源有哪些,這些資源更加客觀更加穩定。
以上內容一直有一個隱含假設,就是檢索結果與用戶Query具備相關性,針對每一Query的特定結果集進行聚類,可對Query自己起到消歧、擴展的做用,而從數據維度上與用戶需求相關但卻描述了資源維度的所具備的內容,於是可協助用戶更快地定位有用數據,引導用戶行爲。
檢索結果聚類目前應用的並很少,但資源維度的數據可以真實反映數據的分佈,對彌補、驗證需求維度的信息有益無害,對於即時檢索信息的挖掘、臨時知識體系的構建均有較大幫助。目前技術還不太成熟,在諸多領域還大有可爲,歡迎你們發表意見共同探討。
by hanzhonghua