搜索引擎日益比傳統的關鍵字輸入、文檔輸出的先進,經過關注面向用戶的任務提升用戶體驗,面向用戶的任務包括查詢建議、搜索個性化、推薦連接。這些以用戶爲中心的任務被從search query logs挖掘數據支撐。事實上,查詢日誌抓住用戶對世界的認知,是這項應用的關鍵。web
從查詢日誌中抽取的語言知識,如實體和關係,對上面的應用來講有很大的價值。然而目前尚未對從查詢日誌抽取知識付出不少研究。本論文,咱們首次調查開放的信息抽取基於查詢日誌。咱們的目標是從查詢日誌中抽取面向用戶的知識,來幫助推理。算法
傳統的信息抽取關注抽取結構化的信息,如實體、關係、事實,從非結構化的文本中,使用兩個主要的假設:(1)文本資源是句法和語義良構的文本片斷,例如新聞語料、網頁文檔;(2)抽取處理是從一些先驗的知識中自舉產生的。app
開放的信息抽取(open information extraction, OIE)是剛興起的信息抽取範式,放寬了假設(2),經過關注領域獨立且可擴展的從網頁量級的語料中抽取實體和關係,不須要人工輸入。ide
在本文中,咱們更進一步,經過避免假設(1),探索search query log對於OIE的實用性。咱們闡述放寬假設(1)和(2)容許咱們適當得實現咱們的目標,抽取面向用戶的知識。特別的,咱們假設網頁文本和查詢日誌建模兩個不一樣的空間:網頁文本建模web space,search query log 建模 user space。工具
爲了使咱們對基於search query log的OIE假設建模可計算,一些挑戰須要解決。首先,咱們須要避免假設(2)從查詢日誌中挖掘天然發生的信息,咱們須要創建徹底獨立於任何先驗知識的抽取方法。第二,查詢日誌不具備句法結構,咱們須要創建魯棒的抽取方法,不須要關聯任何傳統的天然語言處理工具,例如POS Tagger。第三,查詢日誌是簡潔的,咱們須要設計有效的抽取的實體表示,這個表示能恰當的抓住查詢日誌的特性。最後,儘管查詢日誌沒有網頁語料那麼大,可是仍然是大的數據集,所以咱們的方法必須能夠高效處理大數據集。post
咱們介紹基於search query log的OIE的兩個階段的方法。第一個階段(實體抽取),使用無監督的方法從查詢日誌中抽取實體,應用基於模式的啓發式和統計方法。第二階段(實體聚類),經過使用聚類方法,利用查詢日誌的多種信息,在這些實體上創建類別。總結起來,咱們的主要貢獻是:大數據
實體抽取是在NLP和基於網頁應用中具備重要做用的任務。在歷史上,實體抽取被定義爲抽取預先定義類別的實例。咱們介紹一個無監督的方法,從大規模開放領域的查詢日誌中抽取實體。依照咱們的知識,咱們是第一個試圖提出一個算法,明確爲了同時實現如下兩個目標:(1)從查詢日誌中抽取實體,(2)從開放領域型中抽取實體,沒有預先定義的類別。網站
從原始的用戶search query logs開始,咱們的方法首先標識候選實體,而後,可靠的實體從候選實體中選出來,經過使用兩個基於文本證據的信任得分,經過計算包容過濾。搜索引擎
開放領域的從查詢日誌中的實體抽取有一些挑戰:首先,現有的基於類別決定的方法被證實是領域限定的。第二,咱們從查詢日誌中抽取實體,查詢日誌是非典型的語料,查詢是短的,而且缺少句法結構,所以消弱了對傳統的基於上下文證據和句法特徵的方法的使用。google
咱們的生成候選實體的方法是基於簡單的觀察,用戶常常經過拷貝網頁存在的短語創建他們的查詢。因爲這個現象,用戶的查詢一般包含表層級別的屬性,例如大寫屬性和分詞屬性。咱們的方法意識到這個觀察,經過從用戶查詢中標識連續的字母大寫詞。特別的,給定一個查詢Q=q1q2…qn,咱們定義一個候選實體E=e1e2…em,E是Q中最大長度的序列,知足在E中的每一個詞ei首字母大寫。
給定自由的查詢,咱們採起的表層級別的技術距離完美很遠。例如,很小部分用戶只駛入大寫字符。咱們須要標識而且拋棄假的實體。方法在下面介紹。
給定一個經過剛纔步驟生成的候選字符串E=e1e2…em,咱們給他分配2個信息得分:一個基於網頁的表達得分,一個基於查詢日誌的獨立得分。Representation score抓住這個直覺,在E中大小寫敏感的Q,在網頁數據中也應該有相同的形式。更形式化的,基於網頁的表達得分rw(E)經過下面公式計算:
其中,|x|是字符串x在網頁語料中出現的次數,r(i)是i的大小寫敏感表示,O(E)是字符串E的全部發生集(不是很明白是否是全部大小寫狀況呢?)。
Standalone score基於觀察,一個候選實體E應常常在查詢日誌中獨立出現。事實上,在查詢日誌中,咱們必須找到Q==E的查詢,抓住用戶想要知道關於中國實體更多信息的事實。更形式化的,咱們計算基於查詢日誌的standalone score sq(E) 經過下面的公式:
上面獲得了得分rw(E)和sq(E),咱們保留實體知足rw(E)≥τr而且sq(E) ≥τs。在實驗中,咱們經過發展集估計了大量的τr和τs,並把τr設置爲0.1,τs設置爲0.2。
做爲最後的步驟,咱們考慮邊界檢測的問題。一般,咱們可能有大量的重疊的候選,他們只是表示概念,不是實體。這些串可能沒有被過濾掉。咱們採用這樣的方法過濾:一個字符串徹底包含另外一個實體將被遺棄。
咱們介紹在一寫領域開放的實體中使用的聚類方法。在這裏的目標是把在用戶空間具備類似性的實體聚合到一塊兒。爲了完成這個目標,咱們首先須要把每一個實體表示成在這個空間的一個特徵集合,而後咱們須要使用聚類算法聚合具備類似特徵的實體。
上下文特徵空間。上下文特徵空間的基本假設是,一個實體能夠被有效的表示成它在查詢日誌中所在的上下文特徵集。這能夠抓住用戶對這個實體的觀點。
咱們的基於查詢日誌特徵可能顯著的不一樣於傳統的基於網頁語料的特徵,由於相同的實體可能在兩種語料中表現出不一樣的表達和觀念(也就是說在網頁中的用法和在查詢中的用法可能不一樣)。
爲了獲得咱們的上下文表示,咱們使用以下的處理。對每一個實體e,咱們首先找出全部包含實體e的查詢日誌。而後,咱們找到這個實體出現的查詢的前綴和後綴(也就是前面的字符串和後面的字符串)。
當全部實體的全部上下文被統計好時,咱們忽略出現次數少於τ的上下文,這樣能夠避免數據稀疏形成的統計誤差(在實驗中吧τ設置爲200)。咱們而後計算校訂的點式互信息(corrected pointwise mutual information,cpmi):(具體能夠在論文《discovering word senses from text》中找到)
其中,f(e,c)表示e和c在同一個查詢中共同出現的次數,f(e)和f(c)是實體e和上下文c在查詢中出現的次數,f(*,*)表示全部詞和全部上下文出現的次數(就是用到的查詢的數量,具備e或者具備c)。M是校訂因子,做用是減小低頻實體和低頻上下文形成的統計偏差。這樣每一個實體都能表示成一個pmi值的向量。注意:咱們的方法不用任何的NLP parsing,由於查詢幾乎沒有句法結構。這樣能夠保證算法計算複雜度不高,而且能夠容易適應其餘語言。
點擊特徵空間。在一個搜索對話期間,用戶發起一個搜索,搜索引擎返回一個url列表。搜索的結果是,用戶選擇那些能夠表達他們意圖的url。這種交互行爲能夠被點擊捕捉到,這些點擊行爲會被多數搜索引擎寫入日誌,做爲click-trough data。
咱們基於用戶點擊行爲彙集實體的主要動機是,不一樣的查詢點擊相同的url捕獲用戶類似的意圖。所以,聚合用戶點擊的相同的url的實體多是類似的。咱們觀察發現,網址趨向於爲每一個實體貢獻一個url。所以經過點擊url聚合實體,可能找出同義詞(相同實體的不一樣表示)和變形體(拼寫錯誤)。爲了獲得更多的相關聚類,咱們使用base url代替click url。
因爲百科類網站(如維基百科)的存在,取base url可能致使不類似的實體放入相同的類別。爲了解決這個問題,在咱們的實驗中,使用一個stop-list,經過排除前5個基於逆文檔頻率的url,其中entity被看作是「document」。
實際上,每一個被抽取的實體e被表示爲一個大小等同於全部用戶點擊的base url數量的向量。向量的每一維表示一個url。實體e向量的關於url j的那一維經過以下方法計算:
其中μ是當實體e被做爲查詢發起,獲得的base url集合,w(e,j)是當實體e做爲查詢發起時,點擊url j的次數。
混合特徵空間。咱們也實驗了混合特徵空間,使用的是上下文特徵空間和點擊特徵空間的規範化並集。
聚類階段使用上面介紹的任意特徵空間,經過實體的向量的類似度聚合實體。這個任務的聚類算法須要具有這樣的特色:(1)算法必須是高度可擴展的、高效的、能夠計算高維度,由於查詢的數量和特徵向量的維數是很大的;(2)咱們事先不知道類別的數目。
任何知足上面兩個要求的聚類算法均可以被採用。在如今的實驗中,咱們採用CBC,最早進的聚類算法,已經被顯示在不少語言任務中優於K-means算法。咱們使用一個高度可擴展的Map Reduce CBC,能夠保證魯棒的高效的內存使用。CBC介紹略。
先簡單介紹一個使用的數據
查詢日誌:隨機選擇的100百萬,在2009年前3個月,被搜索引擎收集的匿名的查詢,和查詢的頻數。咱們使用月來拆分數據集JN,FB,MR。這些數據用來抽取實體、生成上下文和點擊特徵空間。
網站文檔:搜索引擎爬取的500百萬網頁。這些數據用來實現基於網頁的特徵。
評價方法:咱們實現兩組實驗,一個來評估準確性、一個來評估覆蓋性。
對於準確性實驗,咱們爲買個方法隨機均勻選擇400個實體,把它們分給兩個專家級的標主工做者,它們必須裁定一個實體是否正確。
對於覆蓋性實驗,咱們關注在查詢日誌中頻繁出現的5個類別的實體:演員、運動員、城市、疾病和電影。對於每一個類別,咱們基於維基百科生成一個表明gold set。
比較方法:咱們使用MR數據集來比較下面的實體抽取系統:
這個實驗的目標是雙重的:(1)估計聚類算法的內在質量;(2)證明咱們開始作的假設是否正確。
評價方法:許多已有的評價標準都須要gold standard data set。由於在咱們的狀況中,這樣的數據集不可用並且難以構造。咱們使用一個認證處理。咱們首先從QL-FULL中選擇一個隨機n個實體組成的集合,隨機經過它們在日誌中的頻數產生。對每一個在樣本集中的實體e,咱們推出一個隨機的由k個和e屬於同一個類別的實體組成的列表。在咱們的實驗中,n=10,k=20。而後,咱們把這些交給僱傭的編輯者,e和與e同類的k和實體。編輯者須要判斷每對同類實體是正確的仍是錯誤的。若是實體ei和實體e在用戶的視覺上是類似或者相關的。這些編輯者的一致性超過一個閾值0.64。附加的,咱們詢問編輯者實體e和ei之間的關係。
比較方法:使用下面的方法
實驗結果
能夠看出使用點擊特徵空間是頗有效的。上下文特徵空間不如點擊空間和網頁空間。
在本章中,咱們探索咱們提出模型的兩個實際的應用。爲新聞推薦相關實體和付費搜索提供關鍵字生成。
與新聞相關的網站一般經過可能感興趣的新聞列表幫助用戶探索新聞,爲了基於當前文章用戶的興趣的深刻閱讀。特別的,潛在的問題是標識新聞中的主要概念,基於這個概念提供這篇文章中沒有說起的相關概念。一些方法被提出來爲了(a)有效的在文章中標識主要概念(b)推薦相關概念。咱們的目標在這裏是檢驗咱們的實體聚類是否能成功解決(a)和(b),而且使用戶知足。
數據集創造:咱們從2009年的新聞中隨機選取3百萬篇文章。對於每種方法,咱們生產一個50個新聞文章樣本,並保證他們至少含有2個在一個類別中的實體。對每篇文章,咱們提出和這兩個實體屬於同一類別的前10的實體。
評價和測量:咱們估計方法是生成相關的實體使用準確率:給定一篇文章和相關的一對實體,咱們讓兩個標註人標記相關的實體。若是一個用戶對這篇文章中的實體感興趣,那麼他可能會對推薦的實體感興趣。標註人的一致性在50個推薦中的kappa值爲1.78。準確率是經過相關的推薦除以總的推薦數獲得的。
對比:使用CL-CTX, CL-CLK,CL-HYB和Web方法對比。
結論:如圖。
付費搜索佔不少搜索公司年收入的大部分。在付費搜索中,在線廣告商對明確的關鍵字(叫作 bidterms)投標,經過一個搜索公司的專用平臺的拍賣會。投標的獲勝者將被容許把他們的廣告連接到搜索公司的搜索結果頁面,當bidterms被查詢。
相似google和yahoo的公司投入努力和金錢,來提高他們的投標平臺,爲了吸引更多的廣告商來競拍。Bidterm建議是這些努力的相關例子。在bidterms建議中,廣告商鍵入一個種子關鍵字,表達他的廣告的意圖,而後這個工具提供一個建議的關鍵字列表,列表中的關鍵字能夠競拍。
對一個種子生成競拍建議是自動的,而且在搜索公司已經被獲得了關注。全部的關鍵字建議技術能夠被分爲3個類別:近鄰搜索(Proximity search)方法用種子查詢一個搜索引擎,而且在結果頁面中抽出n-grams在種子的近鄰中。查詢日誌(Query-log)方法,典型的觀察過去頻繁的包含種子的查詢,而且把他們做爲建議,此種方法是最常使用的The Google Adwords Tool和Yahoo Search Marketing Tool。Meta-tag spidering(媒體標記爬取)方法使用種子查詢一個搜索引擎,而且在最優排名的頁面中抽取媒體標籤做爲建議。
現存的對於關鍵字生成的工具都是高準確率的。可是都是隻探索包含種子的建議,它們趨向於忽略其餘的不明顯的建議。這些不明顯的建議有多是給廣告商不貴的可是仍然是高度相關的建議。
這個實驗的目標是估計不一樣方法的建議的質量,對一些大衆化的seed bidterm。
數據集構造:爲了構建種子集合,咱們使用Google skTool database。這個工具提供一個大衆的bidterm的列表。咱們選擇3個話題的列表:旅遊業,交通業和電子客戶。對每一個話題,咱們隨機選擇5個種子,這些種子也在QL-FULL中。
評價和測量:咱們使用準確率和不明顯度。準確率是經過詢問兩個有經驗的人是否相關,若是一個廣告商願意選擇建議競拍。不明顯度簡單的計數有多少個建議不包含種子自己,經過簡單的字符串匹配和簡單的詞幹來計算。
比較:CL-CTX, CL-CLK, CL-HYB和Web。還有最早進的兩個系統Google AdWords (GOO) and Yahoo Search Marketing Tool (YAH)。
略。