算法
文本摘要:從數據上來看,分爲利用無監督數據(自動摘要)和有監督數據兩種方法機器學習
文本摘要:從獲取方法上看,分爲抽取式摘要(從原文中抽取多個句子組成概要)和生成式摘要(先是天然語言理解進行篇章理解,而後用天然語言生成來生成摘要)兩種方法。svg
post
2、抽取式摘要方法學習
一、基於無監督的抽取方法:page-rankspa
主要處理流程:先構造圖(其中一個句子是一個結點,結點之間的邊是句子之間的關係),而後利用page-rank算法計算每一個句子的得分score,最後根據score獲取top 3/5個句子做爲最終生成的摘要。blog
構造圖的方法:將全部的句子轉換成向量(假設有100個句子),根據簡單的公式計算(如餘弦類似度,歐式距離)等計算句子之間的類似度,最後獲得一個句子類似度矩陣(100*100)。深度學習
注:Page-rank:是一張有向圖,結點是一個網頁,邊是兩個網頁之間的關係(這個關係是可進可出的,好比說A,B兩個網頁,A指向B表示根據B能夠獲得A的網址,或者說B比A更高一個層級是更重要的網頁),每一個結點的得分是指向它的結點的數量以及指向它的結點的權重兩個方面來肯定。class
具體計算過程以下:方法
假設有三個點,A指向B,B指向C,C指向A和B,分別計算A、B、C的score。(設d=0.85)
迭代算法:不斷迭代計算A、B、C的得分,當全部得分再也不變化時,則迭代中止。
二、基於有監督的抽取式摘要方法:根據訓練數據,提取特徵向量,構造機器學習模型。
3、生成式摘要方法
基於有監督的生成式摘要方法:使用深度學習模型,如seq2seq模型等來作。