大數據生態圈相關總結

hadoop 1,數據越來越大,尤其是搜索引擎公司,數據的類別---分爲三種,結構型,非結構型,半結構型,對應產生的數據庫,關係型數據庫,非關係型數據庫;數據的來源---自己公司業務,爬蟲(網絡),購買(第三方交易);數據的處理---缺失字段,重要補全,不重要刪除,隱私字段則脫敏 2,谷歌三篇論文  GFS(google filesystem)、產生了hdfs,解決海量數據存儲;MAPREDUCE
相關文章
相關標籤/搜索