Teamwork——Week4 團隊項目之NABC

時間 2019-11-13

標籤 teamwork week4 week 團隊項目 nabc 简体版

原文原文鏈接

項目框架——NABC模型算法

一.N（Need需求）sql

咱們組主要的用戶對象是第三小組——UI小組的同窗們，所以咱們的用戶需求就是他們的數據需求。數據庫

1）提供給UI小組整理好的數據庫，和前一組討論好數據結構。數據結構

2）給每一條記錄添加合理的標籤，既不使數據結構過於麻煩，也不能增長方便UI小組進行查詢。框架

3）做出爬取步驟的UI，方便UI小組知道軟件的每一個功能，並有助於他們更好的理解咱們定義的每一個接口和方法。spa

4）對英文網頁作翻譯，並以中文的形式存入數據庫（暫定採用較好的Google翻譯）翻譯

5）支持繼續向pipeline中輸入新內容。設計

二.A（Approach 作法）視頻

1）對於爬到的數據先進行去噪處理，提取關鍵信息。（例如問題信息，回答信息，領域關鍵詞）server

2）利用所學的sql server數據庫的知識，對上一組crawler爬到的數據進行分組聚類，相應的貼上標籤。

3）識別英文網頁，對其進行中文翻譯後再將其存入數據庫。

以上提到的作法中主要要解決如下幾個技術難點：

1）提取信息是如何準確匹配信息。

2）和前一組爬蟲小組（crawler）商量好數據結構，以便於決定好數據提取的形式

3）決定標籤如何分配，從而獲得一個清晰的分類

4）翻譯時除了借用谷歌翻譯，還要借鑑其餘良好的翻譯算法，從而獲得最佳的翻譯文本

三.B（Benefit 好處）

像前面提到的同樣，因爲咱們組的任務不是具體的面向用戶，所以benefit方面就提一下和學長相比的改進：

1）增長了能夠根據須要實時添加數據記錄的功能

2）數據標籤的設計更加貼合實際狀況，具體狀況具體分析

3）翻譯更加貼閤中文

四.C（Competitors 競爭）

咱們這個層次暫時不存在競爭，由於第一，咱們也不知道其餘同類系統的這一層面是如何實現的，第二，我認爲競爭性的主要體現是表如今學霸組三個分組的綜合功能上。

因爲作爬蟲的小組尚未決定好結束時爬取的網頁、問答對、PDF文件、視頻文件等的數量，以及抽取信息的數量，所以咱們組預估的信息基礎是創建在上一屆項目的基礎上。

上一屆的爬蟲小組爬到的結果爲32萬個網頁，包括問答對，PDF，美國名校計算機學院網頁，其中問答對最多，近28萬個。咱們計劃處理的網頁數量應該是在這個數據基礎上只增不減吧（具體還要看爬蟲小組的實際狀況）。

——edited by 柴澤華

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。