Hadoop學習筆記系列

時間 2019-11-25

原文原文鏈接

Hadoop學習筆記系列

1、爲什麼要學習Hadoop?

　　這是一個信息爆炸的時代。通過數十年的積累，不少企業都彙集了大量的數據。這些數據也是企業的核心財富之一，怎樣從累積的數據裏尋找價值，變廢爲寶煉數成金成爲當務之急。但數據增加的速度每每比cpu和內存性能增加的速度還要快得多。要處理海量數據，若是求助於昂貴的專用主機甚至超級計算機，成本無疑很高，有時即便是保存數據，也須要面對高成本的問題，由於具備海量數據容量的存儲設備，價格每每也是天文數字。成本和IT能力成爲了海量數據分析的主要瓶頸。html

　　Hadoop這個開源產品的出現，打破了對數據力量的壓制。Hadoop源於Nutch這個小型的搜索引擎項目。而Nutch則出自於著名的開源搜索引擎解決方案Lucene，而Lucene則來源於對Google的學習模仿。在Hadoop身上有着明顯的Google的影子。HDFS是GFS的山寨版，Map-Reduce的思想來源於Goolge對Page rank的計算方法，HBase模仿的是Big Table，Zookeeper則學習了Chubby。Google巨人的力量儘管因爲商業的緣由被層層封鎖，但在Hadoop身上獲得了完美的重生和發展。算法

　　從2006年Apache基金會接納Hadoop項目以來。Hadoop已經成爲雲計算軟件的一個事實標準，以及開源雲計算解決方案的幾乎惟一選擇。對於想用低成本（包括軟硬件）實現雲計算平臺或海量數據分析平臺的用戶，Hadoop集羣是首選的對象。因爲Hadoop在各方面都打破了傳統關係型數據庫的思路和模式，對於新接觸Hadoop平臺的人，每每會以爲困惑和難以理解，進而轉化爲畏懼。數據庫

　　所以，爲了遇上大數據時代的發展，迎接雲計算的思惟，儘管我作的是.NET的應用開發工做，但我仍然選擇業餘時間學習Hadoop。我會從Hadoop1.x版本開始學習經典的HDFS與MapReduce，而後瞭解Hadoop2.x版本與老版本的差別，熟悉一些常見的Hadoop應用場景，並學着實踐一個最經典的項目（網站日誌數據分析案例）來完成我給本身規劃的學習任務。框架