基於術語關係的貝葉斯網絡信息檢索模型擴展研究html
LSIc++
閱讀筆記算法
提出一種改進的共現頻率法,利用該方法挖掘了索引術語之間的相關關係,將這種相關關係引入信念網絡模型,提出了一個具備兩層術語節點的擴展信念網絡模型,利用實驗驗證了模型的性能。
將查詢術語同義詞做爲查詢證據引入信念網絡模型,提出了組合同義詞證據的信念網絡檢索模型,實驗驗證了模型性能。
利用同義詞方法挖掘了簡單貝葉斯網絡檢索模型(SBN 模型)中術語之間的關係,提出了利用這種關係所產生的擴展 SBN 模型,並驗證了模型的性能。
利用共現分析法挖掘了術語之間的關係,將這種關係用於基於簡單影響圖的結構化文檔檢索模型(SID 模型),提出了擴展的 SID 檢索模型,研究了模型的拓撲結構和信息檢索方法。 數據庫
同義詞指在信息檢索中可以互換,表達相同或相近概念的詞,如「電腦」—「計算機」,「邊境」-「邊防」等。express
同義詞之間的能夠用詞語類似度衡量。網絡
信息檢索領域文檔都是由索引詞(標引詞)表示的,一樣用戶的查詢通常也由一組術語表示。dom
通常地,當使用給定文檔中術語之間的關係時,信息檢索的性能會獲得提升,ide
所以,如何有效地獲取這些關係並在檢索文檔時使用它們,已經成爲近幾年信息檢索領域的一個研究熱點。post
研究者爲此已經提出了一些方法在信息檢索模型中挖掘和使用術語之間的關係,實驗證實,這些工做在必定程度上提升了模型的性能。 性能
另外一方面,近幾年來同義詞、相關詞的研究取得了必定進展。
出現了一系列同義詞詞典,如英文的《Wordnet》,中文的《同義詞詞林》、《知網》等,爲同義詞的識別提供了方便。
同時研究者提出了一些更爲科學的,適合信息檢索的術語關係量化方法,如基於《同義詞詞林》術語類似度計算方法,基於《知網》的術語類似度計算方法等。
在相關詞識別方面提出了同現分析法,逐點互信息法等,爲有效挖掘術語之間關係,並將這種關係應用於基於貝葉斯網絡的信息檢索模型提供了可能。
綜上所述,研究如何將術語之間關係引入貝葉斯網絡檢索模型,實現對原有模型的擴展,以提升其檢索性能,實現必定意義上的語義檢索,不只具備必定的理論意義和實踐意義,並且是現實可行的。
根據如前所述的研究背景和研究動因,本論文的研究主題肯定爲:
針對貝葉斯網絡信息檢索模型存在的,沒有合理利用術語之間關係的缺點,利用近年來同義詞、相關詞的研究成果,將術語之間關係引入貝葉斯網絡檢索模型,以實現對原有模型的擴展,提升模型的檢索性能。
具體研究目標爲:
3.1 詞語相關度及其計算
略
3.2 同義詞與詞語類似性
3.2.1 信息檢索用同義詞的定義
「其不考慮感情色彩和語氣,主要是指可以相互替換、表達相同或相近概念的詞或詞組。」
用於信息檢索的同義詞主要分爲四類: (就是關係比較大的詞)
3.2.2 同義詞詞典
因爲同義詞在信息檢索中的重要性,十幾年來許多研究者投入了大量精力,研製出了一些同義詞詞典。主要包括以下:
(1) Wordnet
Wordnet是美國普林斯頓大學認知科學實驗室開發的,一部在線的、基於心理語言學原則的詞典數據庫系統。
它本質上是一個詞彙概念網絡,描述了概念間的各類語義關係。
在 Wordnet 中,概念就是同義詞的集合,Wordnet 經過同義詞集合表示概念,經過概念間的關係描述英語概念間複雜的網狀語義關係。
目前的 Wordnet 包含了 95600 個詞形,其中簡單詞51500 個,複合詞 44100 個。
這些詞形被組織成 70100 個詞義或同義詞集,描述了上下位、同義、反義、部分-總體等詞彙語義關係。
Wordnet 應經成功地用於詞義消歧、語言學自動處理、機器翻譯和信息檢索系統,在國際計算語言學界已有至關影響。
API:
c/c++ Interface:
http://stackoverflow.com/questions/18840805/concise-precise-tutorial-for-wordnet
http://wordnet.princeton.edu/wordnet/man/wnintro.3WN.html
(做爲第二次篩選是個不錯的選擇)
(2) Others
略
3.2.3 詞語類似度
定義 詞語類似度:
①詞語類似度是用來衡量兩個詞語在查詢中或文檔中意義相符程度的度量;
②詞語類似度是一個數值,取值範圍爲[0,1]。 記做:Sim ( word1 , word2 ) 。
詞語類似度是同義詞識別的基本方法。通常來講若是兩個詞語之間的意義越相近,則它們之間的類似度越高,不然類似度越低。
詞語類似度目前有兩類常見的計算方法:
根據某種世界知識(Ontology)的計算方法,利用大規模的語料庫進行統計的方法。
根據世界知識( Ontology )計算詞語類似度的方法,通常是使用一部同義詞詞典(Thesaurus)或詞彙分類體系,利用詞語之間的概念距離來計算詞語類似度。
利用大規模的語料庫進行統計的方法主要利用詞語的相關性來計算詞語的類似度。
3.3 基於字面類似度原理的詞語類似度計算
3.3.1 基於英語單詞字面的類似度方法
不太可靠。
3.3.2 國內基於字面的類似度算法研究
略
3.4 基於義類詞典或詞彙分類體系的詞語類似度計算
在 義類詞典 或者 詞彙分類體系( Taxonomy) 中, 全部同類的語義項構成一個具備概念層次的樹狀結構, 相應結點之間的距離(稱爲概念距離)便可表示詞彙語義之間的類似程度。兩個結點之間的路徑越短, 就表示他們越類似。
3.4.1 基於《同義詞詞林》的詞語類似度計算
3.4.2 基於《Hownet》的詞語類似度計算方法
3.5 基於大規模語料庫的詞語類似度計算
基於大規模語料庫計算詞語類似度的基本思路是:
例如能夠事先選擇一組特徵詞,計算這一組特徵詞與每個詞的相關性,
對於每個詞均可以獲得一個相關性的特徵詞向量,這兩個向量之間的類似度
就能夠做爲這兩個詞的類似度。 (這一組特徵詞,貌似有點難選)
特徵詞語的選擇直接影響詞語相關的計算,所以要選擇對目標詞語具備較
強約束力的詞語。在漢語中具備較強上下文約束關係的詞性對包括:形容詞-
名詞、動詞-名詞、名詞-動詞、形容詞-動詞等。所以若是計算兩個名詞的
相關度,通常考慮它們的上文的動詞和形容詞,以及下文的動詞。
同現頻率,構成同現向量
暈,發現這個方法是否是過期了?!
LDA是真理?回頭是岸!
Based on [Maths] Multinomials and Dirichlet distribution
Terminology in text mining
• Corpus - is a large set of texts
• Stop words - usually refer to the most common words in a language which are usually filtered out
• Function words - words that have little meaning, but instead serve to express grammatical relationships with other words within a sentence, or specify the attitude or mood of the speaker
• Unstructured text - either does not have a pre-defined format or is not organized in a pre-defined manner
• Tokenizing - process of breaking a stream of text up into words, phrases, symbols, or other meaningful elements called tokens (terms)
• Term-document matrix (or document-term matrix): is a mathematical matrix that describes the frequency of terms that occur in a collection of documents
• Supervised learning - machine learning task of inferring a function from labelled training data
• Unsupervised learning - similar to above but find hidden structure in unlabelled data
• Most of topic models are based on 「bag-of-words」
• The order of words in a document is neglected 無順序性
• In probability theory, this is an assumption of 「exchangeability」 for the words in 「bag-of-words」 representation 可交換性
• LDA also assumes that documents are exchangeable within a corpus
• A classic representation theorem due to de Finetti establishes that any collection of exchangeable random variables has a representation as a mixture distribution
• To use exchangeable (bag-of-words) representations for documents and words, we need to consider mixture models → LDA
Figure, Term-document matrix
基礎知識:tf-idf是一種統計方法,用以評估一字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。
From: 【Topic Model】主題模型之潛在語義分析(Latent Semantic Analysis) (良心博文,寫得很好)
LSA 用向量空間模型將文檔映射成矩陣, 使用SVD 分解矩陣:
其中矩陣 和
是正交矩陣,矩陣
是包含文檔矩陣的奇異值組成的對角陣。
因爲矩陣中的奇異值的大小表明了矩陣在該維度的變化大小,而且奇異值在矩陣
中是按照從大到小的順序排列的。當
中的前k個奇異值較大的時候,取前k個奇異值能夠看做是對原來矩陣的近似。
舉個例子,數據集中分別有關兩個話題的9篇微博文檔,話題A是關於話題陳奕迅演唱會的,話題B是關於話題谷歌眼睛問世的。通過分詞後將能夠獲得每一個詞對應每篇微博文檔出現頻率的詞頻表。以下表所示。
話題A:陳奕迅演唱會
A1:陳奕迅的演唱會太好聽了,大愛陳奕迅的《十年》
A2:最喜歡的Eason《十年》和《由於愛情》
A3:看陳奕迅的《十年》,現代科技真厲害,現場真棒
A4:北京演唱會,Eason 和王菲對唱《由於愛情》
A5:演唱會陳奕迅爲了請到王菲唱《由於愛情》,特意不說話
話題B:谷歌眼鏡問世
B1:谷歌眼鏡即將上市,如今能夠申請試用。
B2:科技新創意–Google Glass
B3:Glass 創意無限,各位Geek 能夠想辦法試用
B4:谷歌眼鏡能夠申請試用了,屬於可穿戴式科技產品
詞頻表能夠看做是這9條微博的徹底統計,經過詞頻計算表 --> TF-IDF權值表,
對其進行奇異值分解,以下:
設TF-IDF權值表爲
,則經過奇異值分解有:
對矩陣和
分別取奇異值分解的前兩維,即設k=2,能夠獲得
和
和
。
其中 即可表示爲:該n篇文章對應在前兩維度上的一個點的分佈,能夠分別取
和
爲兩個維度繪製每篇文章在這兩個維度上的位置
(以下圖所示,藍色的方形表示話題B的四篇微博,紅色的菱形表示話題A的五篇微博)。
對於一篇新的文章,能夠經過計算
獲得新文章在該兩個維度上的分佈。
下圖中黑色的圓圈即是新的微博:「Eason演唱會王菲」獲得的結果,能夠看到在這兩個維度上很好的將兩個話題區分開了。
分解實例:https://www.youtube.com/watch?v=KYLjyhcHxJ8