單字字頻統計

      語言學中常常用統計數據對語言現象進行定量描寫,主要用來支持語言的自動分析,其中字頻和詞頻是最基本的統計單位,其中運用的原理主要是機率論。本文主要討論對於單個文本文件的單字字頻統計,其任務是:給定一批語料,統計其中有多少個不一樣的漢字(即詞形,Word Type),每一個漢字各出現多少次(即字頻,Word Frequency)(因爲漢字出現的總次數是必定的,所以能夠直接用其出現的次數來代
相關文章
相關標籤/搜索