TF-IDF與餘弦類似性的應用(二):找出類似文章

上一次,我用TF-IDF算法自動提取關鍵詞。html

今天,咱們再來研究另外一個相關的問題。有些時候,除了找到關鍵詞,咱們還但願找到與原文章類似的其餘文章。好比,"Google新聞"在主新聞下方,還提供多條類似的新聞。算法

爲了找出類似的文章,須要用到"餘弦類似性"(cosine similiarity)。下面,我舉一個例子來講明,什麼是"餘弦類似性"。htm

爲了簡單起見,咱們先從句子着手。blog

  句子A:我喜歡看電視,不喜歡看電影。ip

  句子B:我不喜歡看電視,也不喜歡看電影。get

請問怎樣才能計算上面兩句話的類似程度?數學

基本思路是:若是這兩句話的用詞越類似,它們的內容就應該越類似。所以,能夠從詞頻入手,計算它們的類似程度。it

第一步,分詞。方法

  句子A:我/喜歡/看/電視,不/喜歡/看/電影。im

  句子B:我/不/喜歡/看/電視,也/不/喜歡/看/電影。

第二步,列出全部的詞。

  我,喜歡,看,電視,電影,不,也。

第三步,計算詞頻。

  句子A:我 1,喜歡 2,看 2,電視 1,電影 1,不 1,也 0。

  句子B:我 1,喜歡 2,看 2,電視 1,電影 1,不 2,也 1。

第四步,寫出詞頻向量。

  句子A:[1, 2, 2, 1, 1, 1, 0]

  句子B:[1, 2, 2, 1, 1, 2, 1]

到這裏,問題就變成了如何計算這兩個向量的類似程度。

咱們能夠把它們想象成空間中的兩條線段,都是從原點([0, 0, ...])出發,指向不一樣的方向。兩條線段之間造成一個夾角,若是夾角爲0度,意味着方向相同、線段重合;若是夾角爲90度,意味着造成直角,方向徹底不類似;若是夾角爲180度,意味着方向正好相反。所以,咱們能夠經過夾角的大小,來判斷向量的類似程度。夾角越小,就表明越類似。

以二維空間爲例,上圖的a和b是兩個向量,咱們要計算它們的夾角θ。餘弦定理告訴咱們,能夠用下面的公式求得:

假定a向量是[x1, y1],b向量是[x2, y2],那麼能夠將餘弦定理改寫成下面的形式:

數學家已經證實,餘弦的這種計算方法對n維向量也成立。假定A和B是兩個n維向量,A是 [A1, A2, ..., An] ,B是 [B1, B2, ..., Bn] ,則A與B的夾角θ的餘弦等於:

使用這個公式,咱們就能夠獲得,句子A與句子B的夾角的餘弦。

餘弦值越接近1,就代表夾角越接近0度,也就是兩個向量越類似,這就叫"餘弦類似性"。因此,上面的句子A和句子B是很類似的,事實上它們的夾角大約爲20.3度。

由此,咱們就獲得了"找出類似文章"的一種算法:

  (1)使用TF-IDF算法,找出兩篇文章的關鍵詞;

  (2)每篇文章各取出若干個關鍵詞(好比20個),合併成一個集合,計算每篇文章對於這個集合中的詞的詞頻(爲了不文章長度的差別,可使用相對詞頻);

  (3)生成兩篇文章各自的詞頻向量;

  (4)計算兩個向量的餘弦類似度,值越大就表示越類似。

"餘弦類似度"是一種很是有用的算法,只要是計算兩個向量的類似程度,均可以採用它。

相關文章
相關標籤/搜索