這是一篇Hadoop大數據熟知5大陷阱的文章。這篇文章會給你們帶來一些關於Hadoop和大數據的相關知識詳解,但願本篇文章能幫助到你,對你有所收穫,讓咱們開始學習吧。安全
雖然Hadoop能夠運行在廉價的商品計算機硬件,且用戶很容易添加節點,可是它有一些細節是很昂貴的,尤爲是你在生產環境中運行Hadoop。服務器
甲骨文公司大數據產品經理Jean-Pierre Dijck稱:「IT部門認爲‘我已經有服務器,我還能夠買到便宜的服務器,我也有人員,因此咱們不用花多少錢就能夠構建本身的Hadoop集羣’,這固然是一件好事,可是IT部門在部署時會發現這裏會有不少他們沒有預料到的額外開銷。」網絡
Dijcks列舉了IT領導在DIY Hadoop集羣時的5個常見錯誤:模塊化
1.他們試圖以廉價的方式構建Hadoopoop
不少IT部門不清楚Hadoop集羣應該完成什麼使命(除了分析某些類型的數據),因此他們會購買儘量便宜的服務器。學習
「Hadoop被認爲是可自愈的,因此當服務器的一個節點出現故障,構不成大問題,」Dijcks稱,「但若是你購買廉價的服務器,不少節點出現故障那麼你就要花更多時間來修復硬件,若是一大堆節點都不運行了,這就會形成大問題。」測試
若是你的Hadoop集羣只是實驗,那麼以上這些可能不是問題。然而,不少實驗性項目一般最後都會進入生產環境。IT部門認爲,「咱們已經投入了大量的時間,咱們已經作了不少工做,如今咱們須要將其投入生產,」Dijcks說道,「在實驗期間,若是環境出現問題,只要從新啓動便可,但在生產環境,集羣須要可以抵禦硬件故障、人爲交互故障以及任何可能發生的事情。」大數據
Forrester公司在其2016年第二季度報告「大數據Hadoop優化系統」中指出,咱們須要大量時間和精力用於安裝、配置、調試、升級和監控通用Hadoop平臺的基礎設施,而預配置Hadoop優化系統可提供更快的時間價值、下降成本、最小化管理工做以及模塊化擴展功能。優化
2.太多「廚師」操作系統
大多數IT部門將本身分爲軟件、硬件和網絡組,而Hadoop集羣跨越了這些分組,因此DIY Hadoop集羣最終會成爲不少有說服力的「廚師」的產物。
Dijcks稱:「在這種狀況中,你有一個食譜來參考,但負責不一樣領域的人並不會徹底遵循食譜,由於他們喜歡與食譜要求略有不一樣的作法。「因此最終,Hadoop集羣不會按照預期那樣運行。
在進行故障排除後,系統應該可以啓動以及讓IT運營人員在生產環境中運行,但Dijcks稱:「這是另外一個學習曲線開始的地方,他們可能不熟悉Hadoop集羣,你會看到不少人爲錯誤、停機時間等一系列問題。」
3.他們沒有意識到Hadoop DIY項目是特洛伊木馬
在Hadoop集羣轉移到生產環境後,企業一般會發現他們須要安排專門的工做人員來保持其運行。Dijcks稱:「固然,這個工做人員的大部分時間花費在維護上,而不是創新。」此外,這名工做人員還須要瞭解Hadoop系統。
他警告道:「你不能指望人們在很短期內變成Hadoop專家。」即便你僱傭經驗豐富的工做人員,但IT環境差別性很大--DIY Hadoop集羣組件也是如此。所以,在你特定環境中的全部配置、鏈接和相互關係都須要花時間來了解。
4. 他們低估了更新的複雜性和頻率
新版Hadoop(例如來自Cloudera和Hortonworks)每三個月發佈一次,這些一般包含新特性、新功能、更新、漏洞修復等。
「除了保持Hadoop集羣運行所需的全部人類操做外,每三個月都會有新的升級版本,」Dijcks稱,「你完成升級的那一刻,你必須開始規劃下一次升級。這至關複雜,因此有些人開始跳過更新。」即便你跳過幾回更新,最終你仍是會須要更新,例如從5.4升級到5.7。
雖然Cloudera和Hortonworks會嘗試測試儘量多的場景,「他們不能測試你特定操做系統版本或者對特定工做操做的影響,」Dijcks稱,「你的環境可能有思科路由器或者Red Hat操做系統或者IBM硬件,同時,若是這個集羣正用於大數據生產項目,而你須要更新時,就有可能會製造出明顯的停機時間。」
5. 他們沒有準備好應對安全挑戰
在Hadoop早期,安全沒有被視爲一個大問題,由於集羣仍位於防火牆後面。而如今,安全已經成爲最大的問題。
目前Kerberos身份驗證已經內置到Hadoop來解決這些問題,但有些IT企業不知道如何處理此協議,「整合Kerberos到企業的Active Directory很是複雜,」他表示,「你須要在Active Directory和一系列組件之間進行很是多集成工做。且這方面的文檔很是少,最要命的是這涉及到安全管理員和IT其餘團隊,這些人員幾乎是使用徹底不一樣的語言。」
有些IT部門最終會與Cloudera、Hortonworks或其餘第三方簽署合同以保護他們的DIY Hadoop集羣。「這須要一些時間才能完成設置、測試等工做,」Dijcks稱,「而後每過三個月,你都須要從新作一次,以確保應用和配置等一切的正常運行。