文本獲取和搜索引擎簡介

coursera課程 text retrieval and search engine 第一週 推薦。數據結構

NLP定義

幫組理解語言句子的含義框架

例子:a dog is chasing a boy on the playground.函數

語義理解的一些分析方面搜索引擎

  • Lexical analysis:詞彙分析,找到動詞,形容詞,名詞等
  • Syntactic analysis : 句法分析;找到詞組,好比A DOG,即找到既定的結構
  • Semantic analysis:語義分析,好比Dog表明什麼
  • Inference: 根據語義作推斷,上述例子能夠推斷出一個可能,chasing能夠知道這個男孩可能會懼怕狗
  • Pragmatic analysis:根據句法自己去推斷爲何這樣作,理解爲何有人這樣描述,好比多是想讓某人把狗喚回來,以避免男孩被狗傷着

Bag of words:保留全部的單詞,重複的也會保留,可是不關心單詞在生個句子中出現的順序spa

文本獲取的分類

  1. 相似搜索引擎的Pull模型:用戶擁有主動權,它具備Ad hoc屬性,就是說暫時性的須要,後續再也不使用,好比搜索到某個關鍵字的文檔後,這個關鍵字就再也不被使用

查詢和瀏覽的區別:查詢是用戶知道搜索什麼,瀏覽是將內容放置供人查看,而不是查詢orm

  1. 相似推薦系統的Push模型:系統擁有主動權,一個良好的推薦系統可以給用戶推送它真正須要的信息

文本獲取的方式

用戶給定查詢關鍵字在既有的數據集裏頭搜索出想要的結果以供瀏覽。也能夠稱做」Information Retrieve(IR)」,主要策略集中在 如何經過給定的關鍵字查到結果。
文本獲取的方式通常有兩種:排序

  • 第一是 document selection,即根據某種函數f給查詢q和文件d做用後的結果來分類,[f(q,d)=1 / 0],明確把文檔分隔開,要麼徹底相關,要麼徹底不相關;
  • 第二是 Ranking,它是計算相關性,並依次排列順序,關鍵在於如何說明某個文件的相關性比另外一個的相關性更大,當相關性大於某個閾值的時候就返回匹配的文件[ f(q,d)>THETA]

文本獲取(Text Retrive TR)和DBA對比:TR的數據結構是非結構化的,語義存在歧異,也沒有明確代表什麼須要返回,於是返回的是相關文件;而DB是結構化的,語義明確,有完整的說明要返回什麼,於是返回的是徹底匹配的記錄;TR更須要有經驗的演變[用戶來判別那個結果更好]而來查找結果索引

排序函數的分類

  • Similarity-based models ,類似性 f(q,d) = similarity(q,d)
  • Probabilistic models ,機率模型 f(d,q) = p(R=1| d,q) r between{0,1},假設查詢關鍵字和文檔都是隨機變量R的觀察結果,對於特定的文檔,查詢的文檔定義分數爲R等於1的機率
  • probabilistic inference model 機率推斷 f(d,q)=p(d->q) ;
  • axiomatic model 查找一個rank函數可以知足給定的條件,即爲結果

這幾種類型有着共同的策略,通常來講有這麼幾種方式:文檔

  1. terms frequency(TF) 出現的次數
  2. document length ,通常了說某個查詢關鍵字在很長的文檔裏面出現不少的次數比在短文件裏面出現次數多顯得更無心義,從某種角度來說,長文件出現的關鍵字原本就趨向於更多
  3. document frequency(DF) 即關鍵字在文檔出現的次數佔總共內容的比例,意在出現頻率

向量空間模型簡介[Vector space Model(VSM)]

它是一個框架,經過詞(Term)向量的方式來表明一個 doc/query,每個Term均可以是不一樣的概念,每個又表明不一樣的維度,N term表明N維,對於一個Query vector來講,它能夠表示爲q=(x1,x2,x3…)每個xi表示term的加權,Doc vector相似,所以查詢和文檔之間的關係能夠相識於q,和d的類似性 relevance(q,d) 類似於 similarity(q,d) = f(q,d)it

相關文章
相關標籤/搜索