一本英文小說的詞頻統計

對《達芬奇密碼(The Da Vinci Code)》統計了各單詞的出現次數(人名地名不參與統計)。blog

全書約12.5萬字(words),出現了10240個單詞,其中只有1559個單詞出現了10次以上。ip

 

出現2000次以上的單詞,4個:the, of, to, andci

出現1000次以上的單詞,12個。get

出現500次以上的單詞,22個。it

出現100次以上的單詞,148個。file

出現50次以上的單詞,333個。下載

出現30次以上的單詞,551個。密碼

出現20次以上的單詞,808個。統計

出現10次以上的單詞,1559個。word

出現5次以上的單詞,2886個。

出現3次以上的單詞,3447個。

出現2次以上的單詞,6014個。

出現1次以上的單詞,10240個。

 

詳細結果在 這裏 下載,能夠用來背單詞用。

相關文章
相關標籤/搜索