文本與網絡中的冪率分佈

時間 2019-12-07

原文原文鏈接

問題背景：在大量文本中，對每一個單詞的出現次數進行統計，能夠獲得一張單詞出現次數的表格。如：網絡

後面2列，可據此造成二維座標中的某個點。好比出現次數爲100,000的單詞，有20個。則對應座標的橫軸100,000，縱軸20.dom

將全部的行都在座標中標註，並去掉重複的標註點，便可獲得以下的圖：blog

文本中的冪率分佈即以下現象：it

能夠看到具備低出現次數的單詞（橫座標較小），數量很大（縱座標較大）。反之，具備高出現次數的單詞，好比a, of, with, for ... 數量並很少。並且在冪座標系裏，基本呈現線性，這就是所謂的冪率分佈。table

可當作是一排學生，出現的次數至關於學生的身高。那些身高很高的學生個數並很少，而身高不高的學生數量龐大。大量單詞僅僅出現少許的幾回。class

對於Random Walk爬取的context，其節點出現的頻率與具備此頻率的節點個數之間，也服從相似word 的冪率分佈，這是DeepWalk拿來講事兒的根基。如圖：

。im

看一個netGAN 論文（ICML2018）中的圖：
統計

度數小的節點，位於x軸左側，數量較大，y軸上側。度數大的節點，位於x軸右側，在y軸上處於值較小的位置，及數量較少。word

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。