問題背景:在大量文本中,對每一個單詞的出現次數進行統計,能夠獲得一張單詞出現次數的表格。如:網絡
word | #existance | #of word with same existance |
---|---|---|
a | 100,000 | 20 |
an | 100,000 | 20 |
boy | 99,888 | 19 |
cat | 99,877 | 18 |
... | ... | ... |
dog | 5000 | 3000 |
eat | 4000 | 3000 |
... | ... | ... |
folkloristic | 20 | 80000 |
wacky | 10 | 80000 |
zannichelliaceae | 1 | 90009 |
後面2列,可據此造成二維座標中的某個點。好比出現次數爲100,000的單詞,有20個。則對應座標的橫軸100,000,縱軸20.dom
將全部的行都在座標中標註,並去掉重複的標註點,便可獲得以下的圖:blog
文本中的冪率分佈即以下現象:it
能夠看到具備低出現次數的單詞(橫座標較小),數量很大(縱座標較大)。反之,具備高出現次數的單詞,好比a, of, with, for ... 數量並很少。並且在冪座標系裏,基本呈現線性,這就是所謂的冪率分佈。table
可當作是一排學生,出現的次數至關於學生的身高。那些身高很高的學生個數並很少,而身高不高的學生數量龐大。大量單詞僅僅出現少許的幾回。class
對於Random Walk爬取的context, 其節點出現的頻率與具備此頻率的節點個數之間,也服從相似word 的冪率分佈,這是DeepWalk拿來講事兒的根基。如圖:
。im
看一個netGAN 論文(ICML2018)中的圖:
統計
度數小的節點,位於x軸左側,數量較大,y軸上側。度數大的節點,位於x軸右側,在y軸上處於值較小的位置,及數量較少。word