大數據架構簡述(二):數據獲取

1.數據分類 按數據形態,我們把數據分爲結構化數據和非結構化數據兩種。 結構化數據如傳統的Data Warehouse數據,字段有固定的長度和語義,計算機程序可以直接處理 非結構化數據有文本數據、圖像數據、自然語言數據等,計算機程序無法直接進行處理,需要進行格式轉換或信息提取。 2.數據獲取組件 常見的信息獲取組件包括電信特有的探針技術,爲獲取網頁數據常用的爬蟲,採集日誌數據的組件Flume,以及
相關文章
相關標籤/搜索