Hadoop數據讀寫原理

數據流   MapReduce作業(job)是客戶端執行的單位:它包括輸入數據、MapReduce程序和配置信息。Hadoop把輸入數據劃分成等長的小數據發送到MapReduce,稱之爲輸入分片。Hadoop爲每個分片創建一個map任務,由它來運行用戶自定義的map函數來分析每個分片中的記錄。   這裏分片的大小,如果分片太小,那麼管理分片的總時間和map任務創建的總時間將決定作業的執行的總時間。
相關文章
相關標籤/搜索