國內首家!騰訊主導Apache Hadoop新版本發佈

近日,騰訊主導的Apache Hadoop2.8.4最新版本發佈,爲國內科技公司邁出了國際開源領域貢獻的重要一步。數據庫

2006年Apache Hadoop發佈,2008年Hadoop成爲Apache頂級項目。在那時,中國移動、百度、淘寶等都已經開始使用Hadoop技術。Hadoop如今早已成爲Apache軟件基金會的金牌項目之一。不只如此,它還孕育了包括HBase、Hive、ZooKeeper等一系列知名Apache頂級項目,它們一開始都是以Apache Hadoop子項目的形式在社區運做、爲開發者熟知的。服務器

此次騰訊主導發佈的Apache Hadoop2.8.4版本,涉及20多個大大小小的特性和優化,清單以下:
圖片描述oop

負責這一版本總體進度的Release Manager,是來自騰訊雲產品部大數據及人工智能產品中心的專家研究員堵俊平,他同時也是Apache Hadoop社區PMC的成員。大數據

Apache軟件基金會推崇PMC制度,每一個開源項目都是一個PMC,即項目管理委員會,能夠自行決定技術發展方向和社區運做模式,但須要公開信息,並按期向Apache的董事會彙報,以便董事會監督。優化

成爲PMC的成員但是很是不容易的事,必需要一步步「打怪升級」。要實現從一個普通的Developer到PMC Member的跨越,除了碼代碼之外,開源社區的組織能力也要強,是否是帥呆了?
圖片描述雲計算

堵俊平,騰訊T4大數據技術專家,曾任EMC,VMware資深研發工程師,Hortonworks美國YARN團隊負責人。深耕雲計算,大數據方向10餘年,在多個社區均享有極高知名度,包括Apache Hadoop社區Committer & PMC,並領導hadoop 2.六、2.8等應用很是普遍的社區release。曾領導開發多個Hadoop在雲平臺上優化與拓展的項目與產品。目前在騰訊致力於領導騰訊雲大數據及人工智能產品研發工做。人工智能

小編採訪了一下這位男神,接下來就讓他給你們講一下,此次新版本發佈過程當中的小細節吧。spa

Q:不少人可能據說過「開源」,但瞭解很少,您能夠簡單介紹一下嗎?操作系統

A:開源能夠理解爲「向公衆開放源代碼」。近幾年來熱度不減的大數據,就是由開源的軟件來驅動整個產業生態的。這裏就不得不提到一個里程碑式的開源產品——hadoop:從谷歌的三篇論文,到雅虎的hadoop,開啓了現在的大數據時代。開放源代碼

過去的系統軟件主要是由閉源軟件來驅動的。雖然像操做系統涌現出Linux這樣優秀的軟件,但後面的數據庫和應用服務器,仍然幾乎都是從閉源產品去驅動的。

hadoop誕生後的這十年來,一直都是大數據生態的核心,它改變了以往的軟件形式,成爲了最主流的開源項目之一。如今基本上各家數據平臺團隊,都是在hadoop生態系統上小修小改,去支持大數據相關的業務系統,能夠認爲它是開源的一個標準吧。

Q:與傳統的閉源生態相比,開源有什麼好處呢?

A:首先是避免「重複發明輪子」的問題,不一樣的我的和團體能夠在公開的代碼平臺上集體創做,而不是封閉起來作重複的事情。其次是用戶沒必要被綁架在特定的軟件平臺上,隨時能夠遷移應用和數據。最後是核心知識產權,好比之前的IOE,不僅是沒有「中國芯」的問題,上面的應用軟件和系統軟件可能隨時面臨被人封鎖的危險,而開源就不會有這個問題,它徹底公開透明。另外,開源也鼓勵公司規劃長線的技術投資,而不僅是短線的利益操做。

Q:騰訊此次主導阿帕奇社區hadoop新版本的發佈,在國內算是首次嗎?

A:對,之前都是由微軟、Hortonworks和Cloudera等國外大數據廠家輪流坐莊,而這個版本是第一次徹底由國內的公司來支持的。從技術號召力或者對整個開源社區的影響力來講,能夠鼓勵國內的開發者和公司更積極地參與開源項目貢獻,敢於承擔更大的責任,更多地回饋開源社區。

Q:給整個社會也帶來了哪些積極的影響呢?

A:首先,大數據軟件屬於基礎技術,此次平臺是由騰訊作技術主導的,在國內算是一個突破。其次,對於開發者社區來講,也是比較可靠的一個社區、最熱門的項目。最後,對於普通人來講,也是能夠從中受益的。由於基礎平臺能力的提升,也伴隨着數據處理能力的提升,可讓你們的生活更方便。大數據時代到來以前,可能沒有那麼多面向數據的業務,好比地圖業務、O2O業務、智能推薦系統等等。包括如今極具話題性的AI人工智能,若是沒有大數據平臺的進步,也是發展不起來的。

Q:以前是有技術難關的限制嗎?

A:過去十年,中國的互聯網公司發展很快,你們都以追求業務爲主,在技術或開源方面作得不夠,這是咱們相較西方的短板。國內不少公司其實也嘗試過開源,但它只有開源的代碼,沒有開源的社區,也就是本身以爲某個產品作得不錯,就把源代碼開放出來而已。

源代碼的開放和開源社區是兩回事,區別就是你這個開源的代碼,其它第三方(尤爲是你的生態合做夥伴)有沒有能力來參與。

如今整個大數據的熱潮,其實就是被幾款開源的核心軟件所推進的。中國的這些大公司在具有了經濟實力以後,也開始以開源爲手段想要構造一個更好的生態。這可能須要一個過程,但你們已經慢慢意識到這些基礎軟件跟開源結合的重要性了。

相關文章
相關標籤/搜索