實現一個控制檯程序,給定一段英文字符串文件,統計其中各個英文單詞的出現頻率。html
輸入文件名以命令行參數傳入。例如咱們在命令行窗口(cmd)中輸入:java
wordCount.exe input.txt //Java語言 java wordCount input.txt
則會統計input.txt中的如下幾個指標:git
(1) 統計文件的有效行數.算法
(2) 統計文件的單詞總數.
定義:(單詞
)是至少以4個英文字母開頭,跟上字母數字符號,單詞以分隔符分割,不區分大小寫。編程
A-Z
,a-z
A-Z
,a-z
,0-9
file123
是一個單詞,123file
不是一個單詞。file
,File
和FILE
是同一個單詞(3) 統計文件中各單詞的出現次數,最終只輸出頻率最高的10個。頻率相同的單詞,優先輸出字典序靠前的單詞。
例如,windows95,windows98和windows2000同時出現時,則先輸出windows2000
- 輸出的單詞統一爲小寫格式
- 輸出的格式爲:windows
characters: number words: number lines: number <word1>: number <word2>: number ...
特別提醒,爲便於單元測試:函數
冒號
是英文的":", 其後不能有空格
;result.txt
;(4) 將第三步結果,輸出到文件result.txt工具
提交內容包括:性能
(1) 提交 V1.0 能夠編譯運行的源碼到碼雲(gitee)(5分)單元測試
(2) 提交博客 (博客標題:做業 4:詞頻統計——基本功能
)(5分)