psp2.1 | personal Software Process Stages | 預估耗時(分鐘) | 實際耗時(分鐘) |
---|---|---|---|
Planning | 計劃 | 10 | 10 |
Estimate | 估計這個任務須要多少時間 | 10 | 10 |
Development | 原型開發 | 600 | 900 |
Analysis | 需求分析(包括學習新技術) | 60 | 120 |
Design Spec | 生成設計文檔 | 60 | 60 |
Design Review | 設計複審 | 20 | 150 |
Coding Standrd | 代碼規範(爲目前的開發制定合適的規範) | 15 | 15 |
Design | 具體設計 | 60 | 180 |
Coding | 具體編輯 | 180 | 180 |
Code Review | 代碼複審 | 120 | 120 |
Test | 測試(自我測試,修改代碼,提交修改) | 30 | 30 |
Reporting | 報告 | 210 | 300 |
Test Repor | 測試報告 | 30 | 45 |
Size Measurement | 計算工做量 | 10 | 15 |
Postmortem&Process Improvement Plan | 過後總結,並提出過程改進計劃 | 20 | 15 |
- | 合計 | 1435 | 2150 |
模塊 | 備註 |
---|---|
work_2.h | 包含頭文件、數據結構以及用到函數的聲明 |
Count_chrs.cpp | 統計字符數模塊(也包含行數的統計) |
Count_words.cpp | 統計單詞、詞組數模塊(結果計入hashmap) |
Rank_words.cpp | 詞頻、詞組字典序導出模塊,用於實現hashmap |
WordCount.cpp | 主函數 |
for (v = 1; v < argc; v++) { if (argv[v][0] == '-' && strlen(argv[v]) == 2) { if (argv[v][1] == 'i') //輸入參數斷定 { if (v + 1 < argc) { strcpy_s(fnew.file_name, argv[v + 1]); fnew.i_flag = 1; v = v + 1; } } else if (argv[v][1] == 'o') //輸出參數斷定 { if (v + 1 < argc) { strcpy_s(fnew.out_file_name, argv[v + 1]); fnew.o_flag = 1; v = v + 1; } } else if (argv[v][1] == 'w') { if (v + 1 < argc) { fnew.w_flag = 1; if (argv[v + 1][0] == '0') //權重參數斷定 fnew.weight = 0; else if (argv[v + 1][0] == '1') fnew.weight = 1; else cout << "error for weight!" << endl; v = v + 1; } } else if (argv[v][1] == 'm') { if (v + 1 < argc) { fnew.m_flag = 1; fnew.count_m = atoi(argv[v + 1]); //詞組參數斷定 if (fnew.count_m == 0) { cout << "error for m!" << endl; return 0; } v = v + 1; } } else if (argv[v][1] == 'n') { if (v + 1 < argc) { fnew.n_flag = 1; fnew.count_n = atoi(argv[v + 1]); if (fnew.count_n == 0) { cout << "error for n!" << endl; //排名參數斷定 return 0; } v = v + 1; } } } } if (fnew.n_flag == 0) fnew.count_n = 10; if (fnew.i_flag == 0 || fnew.o_flag == 0 || fnew.w_flag == 0) //三參數異常斷定 { cout << "parameters error!" << endl; return 0; }
標題中的單詞(詞組)在統計時算出現十次,摘要中的單詞(詞組)在統計時算出現一次。java
Title:
和Abstract:
來檢測,並設置一個開關istitle
。當檢測到Title:
時,置istitle
爲1,表示在此狀態下提取出的單詞(詞組)都屬於標題部分。不然置爲0,表示在此狀態下提取出的單詞(詞組)都屬於摘要部分。這樣就把單詞(詞組)用標題和摘要區分開啦!w
後的參數來判斷是否須要權重功能。敲重點!!! 當istitle
和w
後的參數同時爲1時,才能把標題中的單詞(詞組)按照10計數。 不然無論是標題仍是摘要中的單詞(詞組),都只能按照1計數。由於咱們採用了hashmap的方法統計頻,因此只要在插入哈希表的函數上稍做改動便可,即增長一個開關flag
,當須要計數10次時置flag=1
,插入結點的times
值置爲10,不然flag=0
插入結點的times
值置爲1。node
本模塊的流程圖:python
//istitle開關部分 if (temp_word == "title"&&temp_line[k] == ':'&&k <= temp_line.size()) { fn.count_chars = fn.count_chars - 7; count_words--; //title不算有效單詞 istitle = 1; //表示目前處於標題狀態 wordbuf.clear(); //標題和摘要狀態切換時,清空隊列由於詞組不能跨越兩者 k += 2; //跳過「: 」 continue; //獲取下一個單詞 } if (temp_word == "abstract"&&temp_line[k] == ':'&&k <= temp_line.size()) { fn.count_chars = fn.count_chars - 10; count_words--; //title不算有效單詞 istitle = 0; //表示目前處於標題狀態 wordbuf.clear(); //標題和摘要狀態切換時,清空隊列由於詞組不能跨越兩者 k += 2; //跳過「: 」 continue; //獲取下一個單詞 }
//插入函數 void hash_insert(Wordnode **l, string word_str,int weight_flag) { int value = hash_index(word_str); //計算哈希值 Wordnode *p; //cout << value; for (p = l[value]; p != NULL; p = p->next) //查找節點並插入 { if (word_str == p->word) //已有節點存在(重複單詞) { p->count += 1 + weight_flag * 9; return; } } p = new Wordnode; //未有節點存在(新單詞) p->count = 1 + weight_flag * 9; p->word = word_str; p->next = l[value]; l[value] = p; }
//帶權重的插入部分 if (istitle == 1 && fn.weight == 1) { hash_insert(l, temp_comb,1); //插入10次 } else { hash_insert(l, temp_comb,0); //插入1次 }
本模塊可單獨分割進行測試,使得本模塊總體耦合度較低,且本模塊內部幾乎無冗餘代碼,也體現了內聚度較高的性質,完全體現了高內聚、低耦合的特色。ios
如下是咱們的思路:git
Tiltle
和Abstract
爲非法單詞,其他爲合法單詞 。m
個單詞。咱們採用了隊列的思想。每當提取出一個單詞時連同它後面的全部分隔符組成一個string
型變量進入隊列。而後判斷隊列中的合法單詞數目,若是等於m
,就建立一個臨時的空的string
型變量,用它去鏈接隊列中的前m
個合法單詞。而後去掉鏈接後所得字符串後面的全部分隔符,最後插入哈希表,並彈出隊首單詞。這樣咱們就取得了完整的分隔符。要去除Tiltle
和Abstract
的干擾,每當咱們檢測到這兩個單詞時採用continue
忽略,並清空隊列,由於隊列中的單詞數目不足m
且不能後後面進來的單詞組合成詞組。因此咱們要清空隊列,防止跨越標題和摘要提取單詞組成詞組。github
本部分流程圖:正則表達式
//詞組統計函數 if (temp_chr <= '9'&&temp_chr >= '0') { k++; //數字開頭判斷 while (k <= temp_line.size() - 1 && ((temp_line[k] <= '9'&&temp_line[k] >= '0') || (temp_line[k] <= 'z'&&temp_line[k] >= 'a'))) { k++; } wordbuf.clear(); //數字開頭,清空隊列 } else if (temp_chr <= 'z' && temp_chr >= 'a') { temp_word = ""; temp_word += temp_chr; //字符補足 //cout<<temp_word<<endl; k += 1; if (temp_line.size() - 2 > k) //判斷餘下位數是否夠裝下一個單詞 { while (k < temp_line.size() && ((temp_line[k] <= 'z' && temp_line[k] >= 'a') || (temp_line[k] <= '9' && temp_line[k] >= '0'))) { temp_word += temp_line[k]; //cout << temp_word << endl; k += 1; } //wordbuf.clear(); } //檢測到合法單詞 if (3 < temp_word.size() && (temp_word[0] <= 'z'&&temp_word[0] >= 'a') && (temp_word[1] <= 'z'&&temp_word[1] >= 'a') && (temp_word[2] <= 'z'&&temp_word[2] >= 'a') && (temp_word[3] <= 'z'&&temp_word[3] >= 'a')) { count_words++; if (temp_word == "title"&&temp_line[k] == ':'&&k <= temp_line.size()) { fn.count_chars = fn.count_chars - 7; count_words--; //title不算有效單詞 istitle = 1; //表示目前處於標題狀態 wordbuf.clear(); //標題和摘要狀態切換時,清空隊列由於詞組不能跨越兩者 k += 2; //跳過「: 」 continue; //獲取下一個單詞 } if (temp_word == "abstract"&&temp_line[k] == ':'&&k <= temp_line.size()) { fn.count_chars = fn.count_chars - 10; count_words--; //title不算有效單詞 istitle = 0; //表示目前處於標題狀態 wordbuf.clear(); //標題和摘要狀態切換時,清空隊列由於詞組不能跨越兩者 k += 2; //跳過「: 」 continue; //獲取下一個單詞 } if (fflag == 1) //只統計詞組 { int thischar = k; //鏈接單詞後的分隔符 while (isdivide(temp_line[thischar]) && thischar < temp_line.size()) { temp_word = temp_word + temp_line[thischar]; thischar++; } wordbuf.push_back(temp_word); //進入隊列 if (wordbuf.size() == len) //長度知足要求 { for (int i = 0; i < len; i++) { temp_comb += wordbuf[i]; } wordbuf.erase(wordbuf.begin()); //第一個單詞清空 while (isdivide(temp_comb[temp_comb.length() - 1])) //去除最後的分隔符 { temp_comb = temp_comb.substr(0, temp_comb.length() - 1); } if (istitle == 1 && fn.weight == 1) { hash_insert(l, temp_comb,1); } else { hash_insert(l, temp_comb,0); } temp_comb = ""; } } else //只統計單詞 { if (istitle == 1 && fn.weight == 1) { hash_insert(l, temp_word,1); } else { hash_insert(l, temp_word,0); //cout << temp_word << endl; } temp_word = ""; } } else //碰見短單詞 { wordbuf.clear(); //清空隊列 } }
result.txt
,參數爲WordCount.exe -i result.txt -o output.txt -m 3 -n 10 -w 1
,性能測試結果以下圖:單元測試的內容 | 測試的模塊 | 輸出結果 | 測試結果 |
---|---|---|---|
給定一個字符串 | 字符統計 | 字符數 | 經過 |
給定論文部分摘要A | 單詞統計 | 字符數 | 經過 |
給定論文部分摘要B | 詞頻統計 | 排名前5詞組 | 經過 |
非法參數 | 容錯檢測 | 錯誤提示 | 經過 |
輸入文件異常 | 容錯檢測 | 錯誤提示 | 經過 |
輸出文件異常 | 容錯檢測 | 錯誤提示 | 經過 |
result.txt | 帶權重單詞統計 | 排名前五單詞 | 經過 |
result.txt | 長度爲二、不帶權詞組統計 | 長度爲2,排名前五詞組 | 經過 |
result.txt | 長度爲三、帶權詞組統計 | 長度爲3,排名前五詞組 | 修改代碼後經過 |
result.txt | 長度爲五、不帶權詞組統計 | 長度爲5,排名前五詞組 | 修改代碼後經過 |
單元測試結果以下圖所示:
算法
//第八次單元測試 TEST_METHOD(TestMethod8) { // TODO: 在此輸入測試代碼 File fnew; //控制文件模塊 Words wnew; //控制單詞模塊 Wordnode *log_list[HASH_LENGTH] = { NULL }; //哈希散列指針數組 vector<string> file_str; fnew.n_flag = 1; fnew.m_flag = 1; fnew.w_flag = 1; fnew.count_m = 2; fnew.count_n = 5; fnew.weight = 0; ifstream f; f.open("E:/result.txt", ios::in); //打開文件 fnew.count_chars = C_chars(f, fnew, wnew, file_str); //計算字符數(行數) fnew.count_words = C_words(f, fnew, wnew, log_list, file_str); //計算單詞數(插入哈希節點) //cout << "chars = " << fnew.count_chars << "," << "lines = " << fnew.count_lines<<","<<"words = "<<fnew.count_words<<endl; rank_word(log_list, wnew, fnew); //詞頻排名 Assert::AreEqual(wnew.word_rank[1], string("this paper")); Assert::AreEqual(wnew.count_rank[1], 469); Assert::AreEqual(wnew.word_rank[2], string("show that")); Assert::AreEqual(wnew.count_rank[2], 340); Assert::AreEqual(wnew.word_rank[3], string("neural networks")); Assert::AreEqual(wnew.count_rank[3], 209); Assert::AreEqual(wnew.word_rank[4], string("neural network")); Assert::AreEqual(wnew.count_rank[4], 187); Assert::AreEqual(wnew.word_rank[5], string("convolutional neural")); Assert::AreEqual(wnew.count_rank[5], 186); }
//第九次單元測試 TEST_METHOD(TestMethod9) { // TODO: 在此輸入測試代碼 File fnew; //控制文件模塊 Words wnew; //控制單詞模塊 Wordnode *log_list[HASH_LENGTH] = { NULL }; //哈希散列指針數組 vector<string> file_str; fnew.n_flag = 1; fnew.m_flag = 1; fnew.w_flag = 1; fnew.count_m = 3; fnew.count_n = 5; fnew.weight = 1; ifstream f; f.open("E:/result.txt", ios::in); //打開文件 fnew.count_chars = C_chars(f, fnew, wnew, file_str); //計算字符數(行數) fnew.count_words = C_words(f, fnew, wnew, log_list, file_str); //計算單詞數(插入哈希節點) //cout << "chars = " << fnew.count_chars << "," << "lines = " << fnew.count_lines<<","<<"words = "<<fnew.count_words<<endl; rank_word(log_list, wnew, fnew); //詞頻排名 Assert::AreEqual(wnew.word_rank[1], string("convolutional neural networks")); Assert::AreEqual(wnew.count_rank[1], 196); Assert::AreEqual(wnew.word_rank[2], string("generative adversarial networks")); Assert::AreEqual(wnew.count_rank[2], 178); Assert::AreEqual(wnew.word_rank[3], string("convolutional neural network")); Assert::AreEqual(wnew.count_rank[3], 159); Assert::AreEqual(wnew.word_rank[4], string("visual question answering")); Assert::AreEqual(wnew.count_rank[4], 156); Assert::AreEqual(wnew.word_rank[5], string("deep neural networks")); Assert::AreEqual(wnew.count_rank[5], 128); }
Run OpenCppCoverage
工具測試了本次做業程序的代碼覆蓋率,結果以下圖所示:通過查閱文檔後,在Tkinter的首頁上,咱們獲得了答案——Tkinter在Windows上的界面是極其很差看的,因此咱們改用Ubuntu實現咱們的界面。仍不死心
編程
在Ubuntu系統上配置好了環境後,再次運行程序的結果以下圖所示:
PDF批量下載模塊
經過爬蟲批量獲取論文PDF的URL,同時完成解析功能,而且以text的形式將其保存在本地對應文件夾中,方便後續讀取PDF功能的實現。
經過將PDF轉換成文字功能,從圖片擴展到文字,雖然說尚不可及咱們的初衷——OCR識別論文,可是從結果層面考量已經足夠實現這項功能了。
同時這項功能並不僅是爲了後續詞雲,咱們也能夠就此依據Google基於python提供的翻譯庫,實現論文的翻譯,減輕了大多數用戶的閱讀負擔。
或許你常會遇到論文中沒法理解的專業術語,而這些術語大可能是簡寫,這時咱們該怎麼辦呢?對此咱們可基於此結合情感分析的手段實現文本處理,大體結果圖以下圖所示:
本次計劃實現的情感分析模塊也會在團隊做業中更加完善化的實現。
咱們可根據用戶所需指定的背景圖片,生成更加有趣、好看的詞雲圖,而不是僅僅基於普通的方框模板的詞雲圖;該項功能給用戶提供了高自由度的自制定模板,從基於官方固定模板到用戶充足發揮想象力。
私覺得這類能提供給用戶的高自由度功能在當今已是少之又少,市場上更多的則是限制了用戶的思惟方式,而本「產品」反其道行之,盡咱們的最大程度給用戶帶來良好體驗。
異常及困難描述 | 嘗試解決 | 是否解決 | 有何收穫 |
---|---|---|---|
原型代碼的選擇 | 嘗試測試了雙方程序速度,並比對易讀性 | 是 | 分析了下述多點如程序運行效率、測試結果準確性在內的諸多考量因素,同時考量了各自編碼的優點及可行性來完成分工模塊。 |
爬蟲設計問題 | 原計劃採用C++實現本次爬蟲,但屢次嘗試均受阻於代碼量極大且功能複雜的爬蟲模塊 | 是 | 解決問題不必定要循序漸進地照標準模型進行,能夠在既有模型的概念基礎上,添加自身的思考與體會,打造出更適合團隊實際應用的模型應用到本次問題中,如果擔憂應用的週期性及實用性,則能夠選擇其餘模塊開發。 |
鋼鐵直男的審美 | 嘗試邀請美工「大觸」,學習「生活與美」等相似界面UI教程 | 是 | 直男毀一輩子,美工「大觸」都不屑跟咱們合做,可是這一次咱們的美工完成「從0到1」的改進,從流程圖的繪製到改進對比圖均體現出了咱們審美的極大提高。 |
第N周 | 新增代碼(行) | 累計代碼(行) | 本週學習耗時(小時) | 累計學習耗時(小時) | 重要成長 |
---|---|---|---|---|---|
1 | 300 | 300 | 18 | 18 | 原型設計,爬蟲關於python的urllib庫及request庫學習 |
2 | 0 | 300 | 8 | 26 | 鋼鐵直男們的審美進步「一點點」 |
3 | 500 | 800 | 12 | 38 | Java爬蟲、Tkinter界面 |
合做了N屢次的好基友,並且每次合做都能讓我獲益匪淺。此次的代碼正是以他第一次我的做業的代碼爲基礎,良好的封裝和功能劃分,讓我很快的就看懂了他的思路,幾乎只用了一天晚上就完成了附加功能的編碼和debug過程,這就是我要向他學習的!
此次結對讓最我吃驚的就是,因爲咱們兩我的十一長假都在忙各自的事情,致使此次做業咱們只用了兩天時間來完成,最後能夠在DDL以前實現全部的功能,要歸功於咱們的高執行力和高效率,很是享受這樣的結對過程,但願之後還有機會能夠再次合做!