spark、hive、MR數據清洗的區別

Q:python 如題三者均可以進行數據清洗,區別是什麼?各自使用場景是什麼?spa A:內存 Spark處理任務比MR快,可是對內存消耗是很大的。spark 多數場景優先考慮hive進行數據清洗,少部分會單獨編寫MR或者Spark程序進行復雜處理。程序 Spark天然適合實時數據處理,例如公司如今放貸業務須要30s放款或拒絕,spark是最合適的。數據 若是不要求實時處理,只是單純數據量大,MR
相關文章
相關標籤/搜索