離線和實時大數據開發實戰 筆記二

1.HDFS 優勢:(1) 處理超大文件(2)運行於廉價的商用機器集羣上(3)高容錯性和高可靠性,通過副本機制實現。(4)流式的訪問數據,HDFS的設計建立在更多地響應」次寫人、多次讀寫」任務的基礎上,這意味着一個數據集一由數據源生成,就會被複制分發到不同的存儲節點中,然後響應各種各樣的數據分析任務請求。在多數情況下,分析任務都會涉及數據集的大部分數據,也就是說,對HDFS來說,請求讀取整個數據集
相關文章
相關標籤/搜索