文本與網絡中的冪率分佈

問題背景:在大量文本中,對每一個單詞的出現次數進行統計,能夠獲得一張單詞出現次數的表格。如:網絡

word #existance #of word with same existance
a 100,000 20
an 100,000 20
boy 99,888 19
cat 99,877 18
... ... ...
dog 5000 3000
eat 4000 3000
... ... ...
folkloristic 20 80000
wacky 10 80000
zannichelliaceae 1 90009

後面2列,可據此造成二維座標中的某個點。好比出現次數爲100,000的單詞,有20個。則對應座標的橫軸100,000,縱軸20.dom

將全部的行都在座標中標註,並去掉重複的標註點,便可獲得以下的圖:blog

文本中的冪率分佈即以下現象:it

能夠看到具備低出現次數的單詞(橫座標較小),數量很大(縱座標較大)。反之,具備高出現次數的單詞,好比a, of, with, for ... 數量並很少。並且在冪座標系裏,基本呈現線性,這就是所謂的冪率分佈。table

可當作是一排學生,出現的次數至關於學生的身高。那些身高很高的學生個數並很少,而身高不高的學生數量龐大。大量單詞僅僅出現少許的幾回。class

對於Random Walk爬取的context, 其節點出現的頻率與具備此頻率的節點個數之間,也服從相似word 的冪率分佈,這是DeepWalk拿來講事兒的根基。如圖:

im

網絡節點的度分佈與power law

看一個netGAN 論文(ICML2018)中的圖:
統計

度數小的節點,位於x軸左側,數量較大,y軸上側。度數大的節點,位於x軸右側,在y軸上處於值較小的位置,及數量較少。word

相關文章
相關標籤/搜索