《Scala機器學習》一一3.6　運行Hadoop的HDFS

時間 2021-01-08

原文原文鏈接

3.6　運行Hadoop的HDFS 沒有分佈式存儲的分佈式框架是不完整的。HDFS是其中的一種分佈式存儲。即使Spark在本地模式下運行，它仍然可以在後臺使用分佈式文件系統。與Spark將計算任務分解成子任務一樣，HDFS也會將文件分成塊，並將它們存儲在集羣上。爲了實現高可用性（High Availability，HA），HDFS會爲每個塊存儲多個副本，副本數稱爲複製級別，默認爲三個（見圖3-5）

>>阅读原文<<