Teamwork——Week4 團隊項目之NABC

項目框架——NABC模型算法

 

一.N(Need需求)sql

咱們組主要的用戶對象是第三小組——UI小組的同窗們,所以咱們的用戶需求就是他們的數據需求。數據庫

1)提供給UI小組整理好的數據庫,和前一組討論好數據結構。數據結構

2)給每一條記錄添加合理的標籤,既不使數據結構過於麻煩,也不能增長方便UI小組進行查詢。框架

3)做出爬取步驟的UI,方便UI小組知道軟件的每一個功能,並有助於他們更好的理解咱們定義的每一個接口和方法。spa

4)對英文網頁作翻譯,並以中文的形式存入數據庫(暫定採用較好的Google翻譯)翻譯

5)支持繼續向pipeline中輸入新內容。設計

 

二.A(Approach 作法)視頻

1)對於爬到的數據先進行去噪處理,提取關鍵信息。(例如問題信息,回答信息,領域關鍵詞)server

2)利用所學的sql server數據庫的知識,對上一組crawler爬到的數據進行分組聚類,相應的貼上標籤。

3)識別英文網頁,對其進行中文翻譯後再將其存入數據庫。

以上提到的作法中主要要解決如下幾個技術難點:

1)提取信息是如何準確匹配信息。

2)和前一組爬蟲小組(crawler)商量好數據結構,以便於決定好數據提取的形式

3)決定標籤如何分配,從而獲得一個清晰的分類

4)翻譯時除了借用谷歌翻譯,還要借鑑其餘良好的翻譯算法,從而獲得最佳的翻譯文本

 

三.B(Benefit 好處)

像前面提到的同樣,因爲咱們組的任務不是具體的面向用戶,所以benefit方面就提一下和學長相比的改進:

1)增長了能夠根據須要實時添加數據記錄的功能

2)數據標籤的設計更加貼合實際狀況,具體狀況具體分析

3)翻譯更加貼閤中文

 

四.C(Competitors 競爭)

咱們這個層次暫時不存在競爭,由於第一,咱們也不知道其餘同類系統的這一層面是如何實現的,第二,我認爲競爭性的主要體現是表如今學霸組三個分組的綜合功能上。

因爲作爬蟲的小組尚未決定好結束時爬取的網頁、問答對、PDF文件、視頻文件等的數量,以及抽取信息的數量,所以咱們組預估的信息基礎是創建在上一屆項目的基礎上。

上一屆的爬蟲小組爬到的結果爲32萬個網頁,包括問答對,PDF,美國名校計算機學院網頁,其中問答對最多,近28萬個。咱們計劃處理的網頁數量應該是在這個數據基礎上只增不減吧(具體還要看爬蟲小組的實際狀況)。

 

                                                                                                         ——edited by 柴澤華

相關文章
相關標籤/搜索