《Spark快速大數據分析》——讀書筆記(5)

第五章 數據讀取與保存 5.1 動機 動機:數據量比較大,單臺機器沒法完成。 三類常見的數據源:php 文件格式與文件系統。對於存儲在本地文件系統或分佈式文件系統(好比NFS、HDFS、Amazon S3等)中的數據,Spark能夠訪問不少種不一樣的文件格式,包括文本文件、JSONSequenceFile以及protocal buffer。 Spark SQL中的結構化數據源。 數據庫與鍵值存儲。
相關文章
相關標籤/搜索