hadoop筆記一

 1.怎麼作推薦系統:網絡

推薦系統架構:在一個公司,要作一個推薦系統,要分三層:a:第一層,offline層,線下層,對海量數據進行離線加工的,例如:mapreduce。b:第二層,nearline層,線下和在線夾着的,容許你的數據有延遲的,可是不要延遲太大,利用流式處理技術,對實時產生的數據作加工,如storm。c:第三層,online層,在線層,負責在線計算,處理相對簡單運算邏輯,例如在線引擎。架構

 

2.傳統海量數據處理技術:傳統hash、一致性hash。             大數據、大流量、大計算。框架

 

3.mapreduce基礎:mapreduce思想就是分而治之。大數據

 

4.mapreduce講解:orm

 

 

計算框架所處理的數據都是在HDFS上的,inputformat是一個mapreduce接口,做用是對hdfs上的數據進行切片、分塊,分出來的每一塊或者每一片均可以做爲map的輸入,reduce的輸入時每個map的輸出。         mapreduce慢在哪裏?排序;還有數據要落地,磁盤io,網絡io,讀寫。blog

 

 

相關文章
相關標籤/搜索