最近在學習Hadoop,很想把本身的一些學習遇到的問題以及解決方案分享出來,也礙於最近一堆忙不完的事,就把這事給擱了好久。html
那下面我就先來簡單說下我爲何要學習Hadoop以及我學習Hadoop的一些感覺吧。算法
你們都知道,最近幾年互聯網的雲計算、大數據、Hadoop等等這些都很炒的很火。我是一名學生,學校也遇上時髦了,也開了相關的數據挖掘、雲計算等的課程。我是去年開始接觸雲計算方面的東西,瞭解了一些關於大數據處理、Hadoop的一些發展概況。總的體會就是,隨着互聯網的飛速發展,各行各業的數據也在急劇膨脹,將來必定是大數據的時代。所以,圍繞這大數據存儲、大數據處理等的發展前景也變得更加光明。數據庫
而後,我選擇學習Hadoop也是由於它在大數據存儲、數據處理方面比較強大。其次,Hadoop技術已經在互聯網領域得以普遍的應用,同時也獲得研究界的廣泛關注。國內外不少的互聯網公司都在用Hadoop作一些數據處理分析什麼的。安全
學習Hadoop主要仍是看好它的發展前景,我我的仍是很看好這個分佈式計算平臺將來的前景的。目前不少大公司也在都在使用Hadoop,好比國內的阿里巴巴、百度、騰訊、國外的Yahoo、亞馬遜、Facebook等都在使用Hadoop。事實證實這個分佈式平臺頗有潛力的,雖然目前仍是存在各類各樣的不足和缺陷,可是有那麼多人在爲之付出,老是可以不斷改進的。下面是Hadoop目前的一些應用狀況:性能優化
Apache Nutch是Hadoop的源頭,該項目始於2002年,是Apache Lucene 的子項目之一。至2004年,Google在OSDI上公開發表了題爲「MapReduce: Simplified Data Processing on Large Clusters」的論文,受到啓發的Doug Cutting等人開始實現MapReduce計算框架並與NDFS(Nutch Distributed File System)結合支持Nutch的主要算法。至2006年逐漸成爲一套完整而獨立的軟件,起名爲Hadoop。2008年初,Hadoop成爲 Apache的頂級項目,應用到除Yahoo!之外的不少互聯網公司。框架
Hadoop主要提供了一套名爲HDFS的分佈式文件系統以及支持Map-Reduce的計算框架。此外,還提供構建在HDFS 和Map/Reduce之上的可擴展的數據倉庫Hive,結構化數據庫HBase,數據流高層語言Pig,高性能分佈式協同服務ZooKeeper,以及 面向大規模分佈式系統的數據收集軟件Chukwa等。機器學習
如Yahoo!使用4000個節點的機羣運行Hadoop,支持廣告系統和 Web搜索的究;Facebook使用1000節點的機羣運行Hadoop,存儲日誌數據,支持其上的數據分析和機器學習;百度用Hadoop處理每週 200TB的數據,進行搜索日誌分析和網頁數據挖掘工做;中移動研究院基於Hadoop開發了「大雲」(BigCloud)系統,不但用於相關數據分析, 還對外提供服務;淘寶的Hadoop系統用於存儲並處理電子商務的交易相關數據。國內的高校和科研院所基於Hadoop在數據存儲、資源管理、做業調度、 性能優化、系統高可用性和安全性方面進行研究,相關研究成果多以開源形式貢獻給Hadoop社區。 分佈式
在國內最先運用Hadoop技術的是互聯網公司,由於Hadoop是開源軟件,當時國內尚無針對Hadoop的交流平臺,Hadoop in China志願者社區正是在這樣的形勢下天然造成的。Hadoop in China大會是這個志願者社區的窗口,其前身是Hadoop技術沙龍。第一次舉辦沙龍是在2008年11月23日,目的是爲了讓更多的Hadoop技術 愛好者可以互相認識,並可以在一塊兒交流學術和技術心得。會議邀請了Yahoo!、Facebook、百度等互聯網企業的資深技術人員到場講解了 Hadoop技術的原理、應用和不少內部技術細節。通過兩年多的努力,Hadoop in China大會已逐漸成爲集技術研討、交流和成果展現爲一身的綜合性技術交流平臺,Hadoop in China 志願者社區已成爲國內推廣Hadoop技術的重要力量之一。oop
這是我寫的第一篇關於Hadoop的博文,在學習Hadoop的過程當中遇到了不少的困難,在Hadoop搭建環境、實戰開發過程當中也出現過不少的問題。所以,之後我也會陸續的把本身以前學習Hadoop的過程當中所遇到的問題以及解決方案的分享出來和你們一塊兒研究學習。我相信積累是成長的必須過程。之後有空就多就常常去學習,思考,總結。萬事開頭難,不過今天算是邁出了第一步,千里之行始於足下,加油吧!