項目框架——NABC模型算法
一.N(Need需求)sql
咱們組主要的用戶對象是第三小組——UI小組的同窗們,所以咱們的用戶需求就是他們的數據需求。數據庫
1)提供給UI小組整理好的數據庫,和前一組討論好數據結構。數據結構
2)給每一條記錄添加合理的標籤,既不使數據結構過於麻煩,也不能增長方便UI小組進行查詢。框架
3)做出爬取步驟的UI,方便UI小組知道軟件的每一個功能,並有助於他們更好的理解咱們定義的每一個接口和方法。spa
4)對英文網頁作翻譯,並以中文的形式存入數據庫(暫定採用較好的Google翻譯)翻譯
5)支持繼續向pipeline中輸入新內容。設計
二.A(Approach 作法)視頻
1)對於爬到的數據先進行去噪處理,提取關鍵信息。(例如問題信息,回答信息,領域關鍵詞)server
2)利用所學的sql server數據庫的知識,對上一組crawler爬到的數據進行分組聚類,相應的貼上標籤。
3)識別英文網頁,對其進行中文翻譯後再將其存入數據庫。
以上提到的作法中主要要解決如下幾個技術難點:
1)提取信息是如何準確匹配信息。
2)和前一組爬蟲小組(crawler)商量好數據結構,以便於決定好數據提取的形式
3)決定標籤如何分配,從而獲得一個清晰的分類
4)翻譯時除了借用谷歌翻譯,還要借鑑其餘良好的翻譯算法,從而獲得最佳的翻譯文本
三.B(Benefit 好處)
像前面提到的同樣,因爲咱們組的任務不是具體的面向用戶,所以benefit方面就提一下和學長相比的改進:
1)增長了能夠根據須要實時添加數據記錄的功能
2)數據標籤的設計更加貼合實際狀況,具體狀況具體分析
3)翻譯更加貼閤中文
四.C(Competitors 競爭)
咱們這個層次暫時不存在競爭,由於第一,咱們也不知道其餘同類系統的這一層面是如何實現的,第二,我認爲競爭性的主要體現是表如今學霸組三個分組的綜合功能上。
因爲作爬蟲的小組尚未決定好結束時爬取的網頁、問答對、PDF文件、視頻文件等的數量,以及抽取信息的數量,所以咱們組預估的信息基礎是創建在上一屆項目的基礎上。
上一屆的爬蟲小組爬到的結果爲32萬個網頁,包括問答對,PDF,美國名校計算機學院網頁,其中問答對最多,近28萬個。咱們計劃處理的網頁數量應該是在這個數據基礎上只增不減吧(具體還要看爬蟲小組的實際狀況)。
——edited by 柴澤華