一個簡單的詞頻分析統計程序

        花了點時間作了一個詞頻分析統計程序,分析了《失控》英文版(out_of_control)——Kevin_Kelly 的詞頻。要想流利的閱讀英語文章,詞彙量應該達到2萬左右。java 從詞頻分析來看,只在文章中出現一次或兩次的單詞佔了一半以上,是長尾理論的具體體現(舉例來講,咱們經常使用的漢字實際上很少,但因出現頻次高,因此這些爲數很少的漢字佔據了右圖廣大的紅區;絕大部分的漢字可貴一
相關文章
相關標籤/搜索