《hadoop權威指南》學習筆記

第一章 初識hadoop 大量的數據勝於好的算法。 一、數據存儲與分析 實現多個磁盤的並行讀寫,需要解決的問題: 1、硬件故障,一旦使用多個硬件,任一硬件發生故障的概率很高,避免數據丟失的辦法就是進行數據備份。 RAID:冗餘磁盤陣列是按數據備份的原理實現的; Hadoop的文件系統,即HDFS也是一類 2、大多數分析任務需要以某種方式結合大部分數據共同完成分析任務,即從一個磁盤讀取的數據可能需要
相關文章
相關標籤/搜索