基於PageRank
好比有三個單詞「man"、」husband「、」dog「,將之分別表示爲[0,0,1],[0,1,0],[1,0,0],這些詞向量能夠做爲機器學習模型的輸入數值向量,可是它們難以表達關聯性,並且當詞庫單詞量龐大時,獨熱編碼的維度也會十分巨大,給計算和存儲帶來很多問題。
參考html
詞袋錶示(Bag-of-words model):例如兩個句子:」She loves cats.「、」He loves cats too.「 咱們能夠構建一個詞頻字典:{"She": 1, "He": 1, "loves": 2 "cats": 2, "too": 1}。根據這個字典, 咱們能將上述兩句話從新表達爲下述兩個向量: [1, 0, 1, 1, 0]和[0, 1, 1, 1, 1],每1維表明對應單詞的頻率。
git
Doc2Vec:是 Tomas Mikolov 基於 word2vec 模型提出的,其具備一些優勢,好比不用固定句子長度,接受不一樣長度的句子作訓練佯本,Doc2vec 是一個無監督學習算法,該算法用於預測一個向量來表示不一樣的文檔,該模型的結構潛在的克服了詞袋模型的缺點.
論文github
LSI(潛在語義索引):潛在語義索引(Latent Semantic Indexing,如下簡稱LSI),有的文章也叫Latent Semantic Analysis(LSA)。它是一種簡單實用的主題模型。LSI是基於奇異值分解(SVD)的方法來獲得文本的主題的。
參考算法
LDA:(Latent Dirichlet Allocation)中文翻譯爲:潛在狄利克雷分佈。LDA主題模型是一種文檔生成模型,是一種非監督機器學習技術。LDA是基於貝葉斯模型的。
參考機器學習
其餘:參考學習
BM25:一種用來評價搜索詞和文檔之間相關性的算法,主要就是計算一個query裏面全部詞和文檔的相關度,而後在把分數作累加操做,而每一個詞的相關度分數主要仍是受到tf/idf的影響。
參考 R(qi,d)是每一個詞和文檔的相關度值,其中qi表明每一個詞,d表明相關的文檔,Wi是這個詞的權重,而後全部詞的乘積再作累加。
ui
ref:https://github.com/dongjun-Lee/text-summarization-tensorflow