關鍵詞提取算法-TextRank

時間 2019-12-13

原文原文鏈接

　　今天要介紹的TextRank是一種用來作關鍵詞提取的算法，也能夠用於提取短語和自動摘要。由於TextRank是基於PageRank的，因此首先簡要介紹下PageRank算法。算法

1.PageRank算法優化

　　PageRank設計之初是用於Google的網頁排名的，以該公司創辦人拉里·佩奇（Larry Page）之姓來命名。Google用它來體現網頁的相關性和重要性，在搜索引擎優化操做中是常常被用來評估網頁優化的成效因素之一。PageRank經過互聯網中的超連接關係來肯定一個網頁的排名，其公式是經過一種投票的思想來設計的：若是咱們要計算網頁A的PageRank值（如下簡稱PR值），那麼咱們須要知道有哪些網頁連接到網頁A，也就是要首先獲得網頁A的入鏈，而後經過入鏈給網頁A的投票來計算網頁A的PR值。這樣設計能夠保證達到這樣一個效果：當某些高質量的網頁指向網頁A的時候，那麼網頁A的PR值會由於這些高質量的投票而變大，而網頁A被較少網頁指向或被一些PR值較低的網頁指向的時候,A的PR值也不會很大，這樣能夠合理地反映一個網頁的質量水平。那麼根據以上思想，佩奇設計了下面的公式：搜索引擎

該公式中，V_i表示某個網頁，V_j表示連接到Vi的網頁（即V_i的入鏈），S(V_i)表示網頁V_i的PR值，In(V_i)表示網頁V_i的全部入鏈的集合,Out(V_j)表示網頁，d表示阻尼係數，是用來克服這個公式中「d *」後面的部分的固有缺陷用的：若是僅僅有求和的部分，那麼該公式將沒法處理沒有入鏈的網頁的PR值，由於這時，根據該公式這些網頁的PR值爲0，但實際狀況卻不是這樣，全部加入了一個阻尼係數來確保每一個網頁都有一個大於0的PR值，根據實驗的結果，在0.85的阻尼係數下，大約100屢次迭代PR值就能收斂到一個穩定的值，而當阻尼係數接近1時，須要的迭代次數會陡然增長不少，且排序不穩定。公式中S(V_j)前面的分數指的是V_j全部出鏈指向的網頁應該平分V_j的PR值，這樣纔算是把本身的票分給了本身連接到的網頁。spa