[Bayes] Concept Search and LSI

時間 2019-11-18

標籤 bayes concept search lsi 简体版

原文原文鏈接

基於術語關係的貝葉斯網絡信息檢索模型擴展研究html

LSIc++

閱讀筆記算法

背景知識

提出一種改進的共現頻率法，利用該方法挖掘了索引術語之間的相關關係，將這種相關關係引入信念網絡模型，提出了一個具備兩層術語節點的擴展信念網絡模型，利用實驗驗證了模型的性能。
將查詢術語同義詞做爲查詢證據引入信念網絡模型，提出了組合同義詞證據的信念網絡檢索模型，實驗驗證了模型性能。
利用同義詞方法挖掘了簡單貝葉斯網絡檢索模型（SBN 模型）中術語之間的關係，提出了利用這種關係所產生的擴展 SBN 模型，並驗證了模型的性能。
利用共現分析法挖掘了術語之間的關係，將這種關係用於基於簡單影響圖的結構化文檔檢索模型（SID 模型），提出了擴展的 SID 檢索模型，研究了模型的拓撲結構和信息檢索方法。數據庫

同義詞指在信息檢索中可以互換，表達相同或相近概念的詞，如「電腦」—「計算機」，「邊境」－「邊防」等。express

同義詞之間的能夠用詞語類似度衡量。網絡

信息檢索領域文檔都是由索引詞（標引詞）表示的，一樣用戶的查詢通常也由一組術語表示。dom

通常地，當使用給定文檔中術語之間的關係時，信息檢索的性能會獲得提升，ide

所以，如何有效地獲取這些關係並在檢索文檔時使用它們，已經成爲近幾年信息檢索領域的一個研究熱點。post

研究者爲此已經提出了一些方法在信息檢索模型中挖掘和使用術語之間的關係，實驗證實，這些工做在必定程度上提升了模型的性能。性能

另外一方面，近幾年來同義詞、相關詞的研究取得了必定進展。

出現了一系列同義詞詞典，如英文的《Wordnet》，中文的《同義詞詞林》、《知網》等，爲同義詞的識別提供了方便。

同時研究者提出了一些更爲科學的，適合信息檢索的術語關係量化方法，如基於《同義詞詞林》術語類似度計算方法，基於《知網》的術語類似度計算方法等。

在相關詞識別方面提出了同現分析法，逐點互信息法等，爲有效挖掘術語之間關係，並將這種關係應用於基於貝葉斯網絡的信息檢索模型提供了可能。
綜上所述，研究如何將術語之間關係引入貝葉斯網絡檢索模型，實現對原有模型的擴展，以提升其檢索性能，實現必定意義上的語義檢索，不只具備必定的理論意義和實踐意義，並且是現實可行的。

研究目標

根據如前所述的研究背景和研究動因，本論文的研究主題肯定爲：
針對貝葉斯網絡信息檢索模型存在的，沒有合理利用術語之間關係的缺點，利用近年來同義詞、相關詞的研究成果，將術語之間關係引入貝葉斯網絡檢索模型，以實現對原有模型的擴展，提升模型的檢索性能。

具體研究目標爲：

- （1）研究基於貝葉斯網絡的信息檢索模型中術語關係的表示及量化方法；
- （2）利用術語間關係對基於貝葉斯網絡的信息檢索模型進行擴展，以提升模型性能，實現必定意義上的語義檢索。
- （3）研究利用術語關係擴展相關結構化文檔檢索模型的方法，提出相關的擴展模型。
- （4）初步構造測試集，實驗驗證擴展模型的性能。

研究基礎

《基於上下文詞語同現向量的詞語類似度計算》

暈，發現這個方法是否是過期了？！

LDA是真理？回頭是岸！

From LSI to LDA

Based on [Maths] Multinomials and Dirichlet distribution

Terminology in text mining
• Corpus - is a large set of texts
• Stop words - usually refer to the most common words in a language which are usually filtered out
• Function words - words that have little meaning, but instead serve to express grammatical relationships with other words within a sentence, or specify the attitude or mood of the speaker
• Unstructured text - either does not have a pre-defined format or is not organized in a pre-defined manner
• Tokenizing - process of breaking a stream of text up into words, phrases, symbols, or other meaningful elements called tokens (terms)
• Term-document matrix (or document-term matrix): is a mathematical matrix that describes the frequency of terms that occur in a collection of documents
• Supervised learning - machine learning task of inferring a function from labelled training data
• Unsupervised learning - similar to above but find hidden structure in unlabelled data

History

• Most of topic models are based on 「bag-of-words」
• The order of words in a document is neglected 無順序性
• In probability theory, this is an assumption of 「exchangeability」 for the words in 「bag-of-words」 representation 可交換性
• LDA also assumes that documents are exchangeable within a corpus
• A classic representation theorem due to de Finetti establishes that any collection of exchangeable random variables has a representation as a mixture distribution
• To use exchangeable (bag-of-words) representations for documents and words, we need to consider mixture models → LDA

Figure, Term-document matrix

LSI

基礎知識：tf-idf是一種統計方法，用以評估一字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。

From: 【Topic Model】主題模型之潛在語義分析（Latent Semantic Analysis） (良心博文，寫得很好)

LSA 用向量空間模型將文檔映射成矩陣，使用SVD 分解矩陣：

其中矩陣

因爲矩陣

舉個例子，數據集中分別有關兩個話題的9篇微博文檔，話題A是關於話題陳奕迅演唱會的，話題B是關於話題谷歌眼睛問世的。通過分詞後將能夠獲得每一個詞對應每篇微博文檔出現頻率的詞頻表。以下表所示。

話題A：陳奕迅演唱會

A1：陳奕迅的演唱會太好聽了，大愛陳奕迅的《十年》
A2：最喜歡的Eason《十年》和《由於愛情》
A3：看陳奕迅的《十年》，現代科技真厲害，現場真棒
A4：北京演唱會，Eason 和王菲對唱《由於愛情》
A5：演唱會陳奕迅爲了請到王菲唱《由於愛情》，特意不說話

話題B：谷歌眼鏡問世

B1：谷歌眼鏡即將上市，如今能夠申請試用。
B2：科技新創意–Google Glass
B3：Glass 創意無限，各位Geek 能夠想辦法試用
B4：谷歌眼鏡能夠申請試用了，屬於可穿戴式科技產品

詞頻表能夠看做是這9條微博的徹底統計，經過詞頻計算表 --> TF-IDF權值表，

對其進行奇異值分解，以下：

設TF-IDF權值表爲

對矩陣

好例子補充：

分解實例：https://www.youtube.com/watch?v=KYLjyhcHxJ8

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。