句子A:我喜歡看電視,不喜歡看電影。html
句子B:我不喜歡看電視,也不喜歡看電影。spa
請問怎樣才能計算上面兩句話的類似程度?htm
基本思路是:若是這兩句話的用詞越類似,它們的內容就應該越類似。所以,能夠從詞頻入手,計算它們的類似程度。blog
第一步,分詞。get
句子A:我/喜歡/看/電視,不/喜歡/看/電影。博客
句子B:我/不/喜歡/看/電視,也/不/喜歡/看/電影。數學
第二步,列出全部的詞。it
我,喜歡,看,電視,電影,不,也。方法
第三步,計算詞頻。im
句子A:我 1,喜歡 2,看 2,電視 1,電影 1,不 1,也 0。
句子B:我 1,喜歡 2,看 2,電視 1,電影 1,不 2,也 1。
第四步,寫出詞頻向量。
句子A:[1, 2, 2, 1, 1, 1, 0]
句子B:[1, 2, 2, 1, 1, 2, 1]
到這裏,問題就變成了如何計算這兩個向量的類似程度。
咱們能夠把它們想象成空間中的兩條線段,都是從原點([0, 0, ...])出發,指向不一樣的方向。兩條線段之間造成一個夾角,若是夾角爲0度,意味着方向相同、線段重合;若是夾角爲90度,意味着造成直角,方向徹底不類似;若是夾角爲180度,意味着方向正好相反。所以,咱們能夠經過夾角的大小,來判斷向量的類似程度。夾角越小,就表明越類似。
以二維空間爲例,上圖的a和b是兩個向量,咱們要計算它們的夾角θ。餘弦定理告訴咱們,能夠用下面的公式求得:
假定a向量是[x1, y1],b向量是[x2, y2],那麼能夠將餘弦定理改寫成下面的形式:
數學家已經證實,餘弦的這種計算方法對n維向量也成立。假定A和B是兩個n維向量,A是 [A1, A2, ..., An] ,B是 [B1, B2, ..., Bn] ,則A與B的夾角θ的餘弦等於:
使用這個公式,咱們就能夠獲得,句子A與句子B的夾角的餘弦。
餘弦值越接近1,就代表夾角越接近0度,也就是兩個向量越類似,這就叫"餘弦類似性"。因此,上面的句子A和句子B是很類似的,事實上它們的夾角大約爲20.3度。
轉自阮一峯博客:http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html