Doug Cutting 看到他兒子在牙牙學語時,抱着黃色小象,親暱的叫 hadoop,他靈光一閃,就把這技術命名爲 Hadoop,並且還用了黃色小象做爲標示 Logo,不過,事實上的小象瘦瘦長長,不像 Logo 上呈現的那麼圓胖。「我兒子如今 17 歲了,因此就把小象給我了,有活動時就帶着小象出席,沒活動時,小象就丟在家裏放襪子的抽屜裏。」 Doug Cutting 大笑着說。git
圖丨Doug Cutting 手拿的黃色小象就是命名 Hadoop 的靈感來源程序員
1985年,Cutting畢業於美國斯坦福大學。他並非一開始就決心投身IT行業的,在大學時代的頭兩年,Cutting學習了諸如物理、地理等常規課程。由於學費的壓力,Cutting開始意識到,本身必須學習一些更加實用、有趣的技能。這樣,一方面能夠幫助本身還清貸款,另外一方面,也是爲本身將來的生活作打算。由於斯坦福大學座落在IT行業的「聖地」硅谷,因此學習軟件對年輕人來講是再天然不過的事情了。算法
Cutting的第一份工做是在Xerox作實習生,Xerox當時的激光掃描儀上運行着三個不一樣的操做系統,其中的一個操做系統尚未屏幕保護程序。所以,Cutting就開始爲這套系統開發屏幕保護程序。因爲這套程序是基於系統底層開發的,因此 其餘同事能夠給這個程序添加不一樣的主題。這份工做給了Cutting必定的知足感,也是他最先的「平臺」級的做品。
儘管Xerox讓Cutting積累了很多技術知識,但他卻認爲,本身當時搞的這些研究只是紙 上談兵,沒有人試驗過這些理論的可實踐性。因而,他決定勇敢地邁出這一步,讓搜索技術能夠爲更多人所用。編程
1997年末,Cutting開始以每週兩天的時間投入,在家裏試着用Java把這個想法變成現實,不久以後,Lucene誕生了。做爲第一個提供全文文本搜索的開源函數庫,Lucene的偉大自沒必要多言。以後,Cutting再接再礪,在 Lucene的基礎上將開源的思想繼續深化。安全
2004年,Cutting和同爲程序員出身的Mike Cafarella決定開發一款能夠代替當時的主流搜索產品的開源搜索引擎,這個項目被命名爲Nutch。Doug Cutting 但願以開源架構開發出一套搜索技術,相似於如今的 Google Search 或是微軟的 Bing,恰好 2004 年 Google Labs 發佈了關於自家大數據分析、MapReduce 算法的論文。Doug Cutting 利用 Google 公開的技術擴充他已經開發出來的 Lucene 搜索技術,進而打造出了 Hadoop。架構
2006年項目成立的一開始,「Hadoop」這個單詞只表明了兩個組件——HDFS和MapReduce。到如今,這個單詞表明的是「核心」(即Core Hadoop項目)以及與之相關的一個不斷成長的生態系統。這個和Linux很是相似,都是由一個核心和一個生態系統組成。機器學習
Hadoop 是基於開放源代碼所建構,用於分散式處理和分析電腦叢集上的巨量資料集,也能夠想成是一個可以儲存並管理大量資料的雲端平臺。它主要有兩個核心技術,分別是分佈式檔案系統(Hadoop Distributed File System,HDFS)以及 MapReduce 技術。正由於透過多節點分工來處理巨量資料,解決了檔案儲存的問題,同時也大幅縮短了運做時間,讓 Hadoop 成了大數據的主流技術,知名大企業如Google、Facebook、沃爾瑪、銀聯、聯通、臺積電等,都利用了 Hadoop 技術。分佈式
Doug Cutting 表示,Hadoop 的意義不在技術,更大的意義在於「數字轉型」(digital transformation),從 Hadoop 的成功經歷咱們能夠學到幾件事:首先、開放源代碼已是必要的,例如在 20 年前他開發出 Hadoop 的前身— Lucene 開源代碼搜尋技術時,並無料想到 Lucene 會成功,「由於它並非最好的技術,也不完美,但它由於是屬於開放源代碼,透過社羣的力量,使它成爲了最好的搜索技術。」對使用者來講,如今更多想要的是開放源代碼的軟件。第二件事就是數字轉型須要不一樣的運算跟儲存架構。在完成 Lucene 以後幾年,Cutting 就開始投入到 Hadoop 的研發之中,「你能夠看到總體的應用已經興起,它的成功在於知足了你們的需求。」在 Hadoop 以前,幾乎全部的資料或應用程序都要被儲存在分開的系統裏,但有了 Hadoop 以後,它們能夠被存在單一的系統裏,在擴充性、處理運算方面有更好的成效。函數
Doug Cutting 指出,Hadoop 與機器學習、AI 有高度關聯性,要訓練、測試、評價人工智能都須要數據,許多開發者在 Hadoop 平臺上寫了不少應用程序,能夠利用這個平臺蒐集各類巨量數據,支援 AI 和機器學習的數據也是爆炸性成長,很難有一家公司能夠作到提供這麼大量的工具。工具
如今,Doug Cutting 的身份除了是 Hadoop 之父外,也是 Cloudera 的首席架構師。Cloudera 能夠說是 Hadoop 生態圈裏最知名的公司,核心產品是爲企業客戶搭建基於 Hadoop 的大數據平臺,幫助企業安裝、配置、運行 Hadoop 以進行海量數據的處理、分析以及機器學習。
Doug Cutting給2017寄語時,指出五種讓開源項目成功的方法:
1. 擁抱開源的不斷改變和演進
不斷地變化,這是每個剛接觸開源技術的人須要學習的第一課,也是開源有別於傳統軟件的最大不一樣之處。開源的本質是易變、靈活,它的新項目經常起源於一些特別的用例。這種動態的循環促使產品變得更好、更快。所以,公司若是想從開源得到徹底的好處,他們必須對技術轉變保持開放的心態。Spark和MapReduce的辯論就完美的體現了這點的重要性:
事實上,人們在構建新的應用時,MapReduce用得愈來愈少,而Spark成爲他們默認的數據處理引擎。MapReduce正逐漸成爲Hive、Pig的底層引擎,這並不意味着它過期了。它還會爲現存應用很好地工做不少年,並且對某些大規模批量加載來講仍然是卓越的工具。這一趨勢遵循開源技術的天然演進:MapReduce是開源數據生態系統的1.0引擎,Spark是2.0,而某一天會出現3.0讓Spark成爲歷史。
2. 當引入一個新技術棧時,從小開始、由上而下
先不去考慮要構建、部署什麼樣的解決方案,咱們如今有了不少通用數據平臺和不少工具,它們能靈活地組合在一塊兒去作搜索、流處理、機器學習還有更多事情。這些工做須要的不只僅是一套不一樣的技能,並且還須要管理方式、組織結構等在文化上的轉變。爲此,重要的是要得到組織內高層的支持,並讓數據管理列入董事會層面的一項重點議題。同時,建議拿一些新的應用來逐步創建一個新文化,而不是要取代全部的一切,這樣可讓你們經過一個個具體的用例來適應這個變化。
3. 仔細挑選開源軟件以免雲供應商捆綁
隨着使用雲計算的企業組織和產業愈來愈多,應該考慮到開源軟件不只會帶來愈來愈好的健壯性、可擴展性和安全性,並且也能夠幫助他們避免被雲供應商捆綁。經過開源平臺的構建,組織能夠採用雲供應商套利以下降成本,可使用不一樣地域的不一樣雲,或者基於雲和內部部署的混合方式。事實上,開源平臺已經證實了本身的技術優越性,2017年也許會取得更多的落地。大量的機構經過開源項目進行合做,單一的供應商要去競爭是很困難的。例如,如今那些開源數據系統在性能和靈活性上就處於領先地位,而且改進得更加迅速。
4. 對求職者來講,開源生態環境裏要關注森林,而不是樹木
IT領域的求職者,無論是編程仍是數據科學,不該該僅僅專一於掌握個別技術,而應該關注理解開源數據生態系統各個組成部分的最佳利用,以及如何把它們鏈接起來解決問題。這種上層建築的理解是企業在技術創新中最有價值的技能。隨着新技術的到來,相當重要的是瞭解它們的適應力如何、它們能取代什麼、它們能作到什麼。
5. 在技能缺口中尋找機會大數據的技能缺口將在明年保持相對穩定,但這不該該成爲人們採用Hadoop以及其它開源技術的阻礙。大多數人都知道,當新的技術被創造出來並爭奪用戶時,它們對外界而言是很陌生的。只有當一個特定類型的軟件成爲某個規範的成熟而標準的一部分,纔會開始出現大量熟練使用它的人,而即便如此仍然會存在技能缺口。只有當咱們再也不對技術棧作大的改進時,纔會消除這種缺口,不過Doug不認爲咱們會但願這樣作。簡而言之,技能缺口是影響平臺變革速度的主要因素之一,也是即未來臨的創新的標誌。