[Bayes] Concept Search and LSI

基於術語關係的貝葉斯網絡信息檢索模型擴展研究html

LSIc++

閱讀筆記算法


  

背景知識

提出一種改進的共現頻率法利用該方法挖掘了索引術語之間的相關關係,將這種相關關係引入信念網絡模型,提出了一個具備兩層術語節點的擴展信念網絡模型,利用實驗驗證了模型的性能。
將查詢術語同義詞做爲查詢證據引入信念網絡模型,提出了組合同義詞證據的信念網絡檢索模型,實驗驗證了模型性能。
利用同義詞方法挖掘了簡單貝葉斯網絡檢索模型(SBN 模型)中術語之間的關係,提出了利用這種關係所產生的擴展 SBN 模型,並驗證了模型的性能。
利用共現分析法挖掘了術語之間的關係,將這種關係用於基於簡單影響圖的結構化文檔檢索模型(SID 模型),提出了擴展的 SID 檢索模型,研究了模型的拓撲結構和信息檢索方法。 數據庫

 

同義詞指在信息檢索中可以互換,表達相同或相近概念的詞,如「電腦」—「計算機」,「邊境」-「邊防」等。express

同義詞之間的能夠用詞語類似度衡量。網絡

 

信息檢索領域文檔都是由索引詞(標引詞)表示的,一樣用戶的查詢通常也由一組術語表示。dom

通常地,當使用給定文檔中術語之間的關係時,信息檢索的性能會獲得提升,ide

所以,如何有效地獲取這些關係並在檢索文檔時使用它們,已經成爲近幾年信息檢索領域的一個研究熱點。post

研究者爲此已經提出了一些方法在信息檢索模型中挖掘和使用術語之間的關係,實驗證實,這些工做在必定程度上提升了模型的性能。 性能

 

另外一方面,近幾年來同義詞、相關詞的研究取得了必定進展。

出現了一系列同義詞詞典,如英文的《Wordnet》,中文的《同義詞詞林》、《知網》等,爲同義詞的識別提供了方便。

同時研究者提出了一些更爲科學的,適合信息檢索的術語關係量化方法,如基於《同義詞詞林》術語類似度計算方法,基於《知網》的術語類似度計算方法等。

在相關詞識別方面提出了同現分析法,逐點互信息法等,爲有效挖掘術語之間關係,並將這種關係應用於基於貝葉斯網絡的信息檢索模型提供了可能。
綜上所述,研究如何將術語之間關係引入貝葉斯網絡檢索模型,實現對原有模型的擴展,以提升其檢索性能,實現必定意義上的語義檢索,不只具備必定的理論意義和實踐意義,並且是現實可行的。

 


 

研究目標

根據如前所述的研究背景和研究動因,本論文的研究主題肯定爲:
針對貝葉斯網絡信息檢索模型存在的,沒有合理利用術語之間關係的缺點,利用近年來同義詞、相關詞的研究成果,將術語之間關係引入貝葉斯網絡檢索模型,以實現對原有模型的擴展,提升模型的檢索性能。

具體研究目標爲:

    • (1)研究基於貝葉斯網絡的信息檢索模型中術語關係的表示及量化方法
    • (2)利用術語間關係對基於貝葉斯網絡的信息檢索模型進行擴展,以提升模型性能,實現必定意義上的語義檢索。
    • (3)研究利用術語關係擴展相關結構化文檔檢索模型的方法,提出相關的擴展模型
    • (4)初步構造測試集,實驗驗證擴展模型的性能。

 


 

研究基礎

相關性衡量

3.1 詞語相關度及其計算

3.2 同義詞與詞語類似性

3.2.1 信息檢索用同義詞的定義

「其不考慮感情色彩和語氣,主要是指可以相互替換、表達相同或相近概念的詞或詞組。」

用於信息檢索的同義詞主要分爲四類: (就是關係比較大的詞)

      • (1)等價詞和等義詞或詞組:即意義徹底相等的詞。如電腦—計算機、自行車—腳踏車等。
      • (2)準同義詞和準同義詞詞組:即意義基本相同的詞和詞組。如邊疆—邊境、住房—住宅等。這類詞在同義詞中佔很大的比例。
      • (3)某些過於專指的下位詞。例如在詞表中只使用「球類運動」,而沒有在下面列舉出「門球」、「毽球」、「網球」等詞, 這些過於專指的下位詞也被看做同義詞。
      • (4)極少數的反義詞。這類詞描述相同的主題,但所包含的概念互不相容,如平滑度—粗糙度等

 

3.2.2 同義詞詞典

因爲同義詞在信息檢索中的重要性,十幾年來許多研究者投入了大量精力,研製出了一些同義詞詞典。主要包括以下:


(1) Wordnet
Wordnet是美國普林斯頓大學認知科學實驗室開發的,一部在線的、基於心理語言學原則的詞典數據庫系統。

它本質上是一個詞彙概念網絡,描述了概念間的各類語義關係。

      • 它和標準詞典之間的區別就是它把英語單詞分爲名詞、動詞、形容詞、副詞和虛詞五類(實際上只包括 4 類,未包括虛詞),
      • 而後,按照詞義,而不是詞形來組織詞彙信息。

在 Wordnet 中,概念就是同義詞的集合,Wordnet 經過同義詞集合表示概念,經過概念間的關係描述英語概念間複雜的網狀語義關係。

 

目前的 Wordnet 包含了 95600 個詞形,其中簡單詞51500 個,複合詞 44100 個。

這些詞形被組織成 70100 個詞義或同義詞集,描述了上下位、同義、反義、部分-總體等詞彙語義關係。
Wordnet 應經成功地用於詞義消歧語言學自動處理機器翻譯信息檢索系統,在國際計算語言學界已有至關影響。

      • 2001 年成立了 Wordnet 研究學會,
      • 2002 年於印度召開了第一屆 Wordnet 國際會議。
      • 許多國家都已着手實施構造本民族語言的 Wordnet。
      • 東北大學的張俐等人在 Wordnet 的基礎上探討了中文 Wordnet 的實現。
      • 中文 Wordnet 以 Wordnet 中的概念間關係爲基礎,以半自動方式建立了一個適用於中文信息處理的系統。

 

API:

WordNet NLTK Interface

c/c++ Interface:

http://stackoverflow.com/questions/18840805/concise-precise-tutorial-for-wordnet

http://wordnet.princeton.edu/wordnet/man/wnintro.3WN.html

(做爲第二次篩選是個不錯的選擇)

 

(2) Others

 

3.2.3 詞語類似度

定義 詞語類似度:
①詞語類似度是用來衡量兩個詞語在查詢中或文檔中意義相符程度的度量;
②詞語類似度是一個數值,取值範圍爲[0,1]。 記做:Sim ( word1 , word2 ) 。


詞語類似度是同義詞識別的基本方法。通常來講若是兩個詞語之間的意義越相近,則它們之間的類似度越高,不然類似度越低。

      • 一個詞語與它自己的類似度爲 1。
      • 一個詞語與它的等義詞之間的類似度也是 1。 (看來並非單純看外表類似度)

 

詞語類似度目前有兩類常見的計算方法:

根據某種世界知識(Ontology)的計算方法,利用大規模的語料庫進行統計的方法。

根據世界知識( Ontology )計算詞語類似度的方法,通常是使用一部同義詞詞典(Thesaurus)或詞彙分類體系,利用詞語之間的概念距離來計算詞語類似度。

利用大規模的語料庫進行統計的方法主要利用詞語的相關性來計算詞語的類似度。

  

3.3 基於字面類似度原理的詞語類似度計算 

3.3.1 基於英語單詞字面的類似度方法

不太可靠。

3.3.2 國內基於字面的類似度算法研究

 

3.4 基於義類詞典或詞彙分類體系的詞語類似度計算

在 義類詞典 或者 詞彙分類體系( Taxonomy) 中, 全部同類的語義項構成一個具備概念層次的樹狀結構, 相應結點之間的距離(稱爲概念距離)便可表示詞彙語義之間的類似程度。兩個結點之間的路徑越短, 就表示他們越類似。

    • 在樹狀結構中, 除了要考慮結點間路徑的長度外,
    • 有時還考慮了概念層次樹的深度(概念的細分程度)和密度(概念的集中程度)對詞彙類似度計算的影響。 

3.4.1 基於《同義詞詞林》的詞語類似度計算

3.4.2 基於《Hownet》的詞語類似度計算方法

 

3.5 基於大規模語料庫的詞語類似度計算

基於大規模語料庫計算詞語類似度的基本思路是:

    • 一個詞語的上下文環境中包含有豐富的,有關該詞的語義信息。
    • 若是兩個詞語上下文中的這些信息是類似的,則這兩個詞語也是類似的。


例如能夠事先選擇一組特徵詞,計算這一組特徵詞與每個詞的相關性,
對於每個詞均可以獲得一個相關性的特徵詞向量,這兩個向量之間的類似度
就能夠做爲這兩個詞的類似度。 (這一組特徵詞,貌似有點難選)

特徵詞語的選擇直接影響詞語相關的計算,所以要選擇對目標詞語具備較
強約束力的詞語。在漢語中具備較強上下文約束關係的詞性對包括:形容詞-
名詞、動詞-名詞、名詞-動詞、形容詞-動詞等。所以若是計算兩個名詞的
相關度,通常考慮它們的上文的動詞和形容詞,以及下文的動詞。

 

同現頻率,構成同現向量


 

《基於上下文詞語同現向量的詞語類似度計算》

暈,發現這個方法是否是過期了?!

LDA是真理?回頭是岸!

 


 

From LSI to LDA

Based on [Maths] Multinomials and Dirichlet distribution

 

Terminology in text mining
Corpus - is a large set of texts
Stop words - usually refer to the most common words in a language which are usually filtered out
Function words - words that have little meaning, but instead serve to express grammatical relationships with other words within a sentence, or specify the attitude or mood of the speaker
Unstructured text - either does not have a pre-defined format or is not organized in a pre-defined manner
Tokenizing - process of breaking a stream of text up into words, phrases, symbols, or other meaningful elements called tokens (terms)
Term-document matrix (or document-term matrix): is a mathematical matrix that describes the frequency of terms that occur in a collection of documents
Supervised learning - machine learning task of inferring a function from labelled training data
Unsupervised learning - similar to above but find hidden structure in unlabelled data

 

History

 

• Most of topic models are based on 「bag-of-words」
• The order of words in a document is neglected 無順序性
• In probability theory, this is an assumption of 「exchangeability」 for the words in 「bag-of-words」 representation 可交換性
• LDA also assumes that documents are exchangeable within a corpus
• A classic representation theorem due to de Finetti establishes that any collection of exchangeable random variables has a representation as a mixture distribution
• To use exchangeable (bag-of-words) representations for documents and words, we need to consider mixture models → LDA

 

Figure, Term-document matrix

LSI

基礎知識:tf-idf是一種統計方法,用以評估一字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度

From: 【Topic Model】主題模型之潛在語義分析(Latent Semantic Analysis) (良心博文,寫得很好)

 

LSA 用向量空間模型將文檔映射成矩陣, 使用SVD 分解矩陣:A_{m\times n}=U_{m\times k}\Sigma_{k\times k}V_{k\times n}

其中矩陣U 和V 是正交矩陣,矩陣\Sigma是包含文檔矩陣的奇異值組成的對角陣。

因爲矩陣\Sigma中的奇異值的大小表明了矩陣在該維度的變化大小,而且奇異值在矩陣\Sigma中是按照從大到小的順序排列的。當\Sigma中的前k個奇異值較大的時候,取前k個奇異值能夠看做是對原來矩陣的近似。

舉個例子,數據集中分別有關兩個話題的9篇微博文檔,話題A是關於話題陳奕迅演唱會的,話題B是關於話題谷歌眼睛問世的。通過分詞後將能夠獲得每一個詞對應每篇微博文檔出現頻率的詞頻表。以下表所示。

話題A:陳奕迅演唱會

A1:陳奕迅的演唱會太好聽了,大愛陳奕迅的《十年》
A2:最喜歡的Eason《十年》和《由於愛情》
A3:看陳奕迅的《十年》,現代科技真厲害,現場真棒
A4:北京演唱會,Eason 和王菲對唱《由於愛情》
A5:演唱會陳奕迅爲了請到王菲唱《由於愛情》,特意不說話

話題B:谷歌眼鏡問世

B1:谷歌眼鏡即將上市,如今能夠申請試用。
B2:科技新創意–Google Glass
B3:Glass 創意無限,各位Geek 能夠想辦法試用
B4:谷歌眼鏡能夠申請試用了,屬於可穿戴式科技產品

 

詞頻表能夠看做是這9條微博的徹底統計,經過詞頻計算表 --> TF-IDF權值表

對其進行奇異值分解,以下:

設TF-IDF權值表爲TFIDF_{m\times n},則經過奇異值分解有:svd(TFIDF_{m\times n})=U_{m\times m}\Sigma_{m\times n} V_{n\times n}

  

對矩陣U\Sigma分別取奇異值分解的前兩維,即設k=2,能夠獲得 U_{m\times 2} 和 \Sigma_{2\times 2} 和 V_{2\times n}

其中V_{2,n} 即可表示爲:該n篇文章對應在前兩維度上的一個點的分佈,能夠分別取V_{1,n} 和V_{2,n} 爲兩個維度繪製每篇文章在這兩個維度上的位置

(以下圖所示,藍色的方形表示話題B的四篇微博,紅色的菱形表示話題A的五篇微博)。

對於一篇新的文章M_{m\times 1},能夠經過計算V_{1\times n}=\Sigma_{1\times 2}U_{m\times 2}^{T}M 獲得新文章在該兩個維度上的分佈。

下圖中黑色的圓圈即是新的微博:「Eason演唱會王菲」獲得的結果,能夠看到在這兩個維度上很好的將兩個話題區分開了。

 


 

好例子補充: 

分解實例:https://www.youtube.com/watch?v=KYLjyhcHxJ8

相關文章
相關標籤/搜索