幾年前大數據的概念就很火了,通常人顧名思義,以爲數據量很大那就叫大數據。這也能夠理解,若是不是這樣,那麼大數據這個名稱也許是起錯了。不少人甚至作到了言必稱大數據,甭管他們可能實際上連大數據的四V特徵都不瞭解,不少公司老闆也想追趕時髦,都會對外宣稱本身的企業最近在搞大數據。服務器
那麼實際情況呢,在這裏引用一個流傳甚廣的幽默說法吧:網絡
Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it…架構
大意是:大數據這東西像青少年那個,每一個人都談論它,卻沒人知道怎麼作,每一個人都覺得別人在作,所以他們也都聲稱本身在作。框架
要玩大數據,首先得明白,你想要怎麼樣的數據,能夠拿到怎麼樣的數據,接着考慮這些數據是否有價值,數據中是否蘊含了有價值的信息,能夠從中挖掘出哪些信息,而後再考慮如何分析挖掘。要挖掘出哪些信息,就是數據分析的目標,也是業務目標,所以能夠知道,要進行大數據分析,必定是由於業務有需求,並且這種需求越明確越好。若是隻是追趕時髦,那麼就會在需求不明確甚至是僞需求的狀況下,貿然組建大數據研發團隊,而後研發人員隔三差五跑去找業務人員瞭解他們的需求,還每每不能瞭解獲得,因而天天干着急啥事沒作成。研發人員能夠經過自動化工具進行數據的採集,而後使用一些方法進行分析,可是他們首先得知道業務那邊想要怎樣的結果,才能反過來肯定分析方法和進行哪一種數據的採集。而若是相關業務人員或者比較有話語權的業務人員不理解這一點,不配合研發人員進行需求梳理和目標確立,那麼研發人員即便身爲巧婦,也難爲無米之炊。工具
要是以上的問題都解決了呢?那麼研發部門就要承擔重任了,數據採集方法、數據分析方法、系統架構設計等等都是他們須要作的。情形多是這樣:oop
研發部門的小哥受主管使指,去網上搜了一圈,發現Hadoop是離線大數據分析的好框架,而後又知道Spark框架是爲了提升分析速度而用內存代替磁盤等等。爲了使用更新的技術,研發小哥決定選擇選用Spark,因而開始學習如何搭建Spark集羣。幾天以後,他照着網上的教程,使用幾臺虛擬機搭建好了集羣,並作了一些測試。但若是數據量真的上來了,這幾臺虛擬機跑不動了怎麼辦,並且還須要有公網IP,畢竟數據分析結果是須要實時能從各個終端查看的。若是購買物理服務器,這些物理服務器放在公司裏,怎麼進行網絡連線,怎麼進行IP分配?若是託管在別人機房那裏,須要哪些步驟?研發小哥一會兒以爲腦子不夠用了,深深嘆了口氣。這年頭阿貓阿狗都在玩大數據,沒想到本身搞大數據的時候,居然是無從下手。嘆氣歸嘆氣,事情仍是要作的,因而研發小哥硬着頭皮繼續研究。學習
這年頭,大數據是阿貓阿狗都能玩的嗎?是,也不是。若是是,那上文說到的研發小哥爲嘛還長嘆一聲呢?也許他們團隊走在了錯誤的道路上。若是你有過搭建物理機集羣的經驗,有過配置交換機、劃分VLAN、配置存儲系統和磁盤陣列的經歷,你必定以爲這些事情是相對耗費時間而且容易出錯的。對於一個經驗不夠豐富,沒什麼大牛甚至小牛都沒有的技術團隊,去本身搭建一個簡單的集羣雖然也不算難事,可是維護集羣、讓集羣具有可擴展性、對集羣進行監控、進行自動故障恢復等卻有必定難度。測試
退一步,假設集羣搭建維護的問題也能夠解決了,那麼就到數據採集和分析。數據採集沒有太多好說的,數據分析方法倒是重中之重,由於若是分析方法不對,得出的信息可能徹底沒有價值,甚至起誤導做用。研發小哥如今可能又去網上搜索一圈,比較各個深度學習框架,看看人家都怎麼說,而後決定本身是該選擇TensorFlow仍是Caffe之類的。比啊比,反正最後是選了一個,而後找訓練樣本進行深度訓練啊等等接下來的事情夠他們團隊裏的人忙活了……大數據
這艱難的一年終於熬到頭了,研發部門小哥們在都在盼着年終獎。萬萬沒想到的是,業務部門以爲大數據分析的結果對業務沒有幫助,把業務不增加歸因到研發部的大數據分析效果不佳上。而老闆一盤算,研發部門擴招人員的成本、購買服務器等等成本比去年大大增長了,臉一綠,心一橫,研發部小哥們望眼欲穿的年終獎只能成爲了他們永遠藏在心底的好夢,不只如此,想到來年可能會面臨的裁人問題,小哥們更是瑟瑟發抖了……阿里雲
前面咱們提到了,或許研發團隊一直走在了錯誤的道路上。對於一箇中小企業來講,在需求不明確的狀況下組建大數據團隊,而後本身搭建大數據基礎設施的作法是有風險的,風險在於成本和效益不成正比。對於中小企業來講,在進行大數據架構時,應該優先想到各類成熟的雲平臺,好比阿里雲的一站式大數據服務平臺數加,這個我曾經在拙做《漫談中小企業研發技術棧》中一樣有提到。如今不少雲平臺都有按需使用按需付費的功能,買個集羣也就點點幾下鼠標的事情,那麼中小企業使用雲平臺不只僅能夠快速搭建開發環境,還能在成本上節省不少。使用雲平臺,就把物理集羣搭建、維護、監控這種髒活累活扔給了雲服務商,也就是基礎設施部分儘可能少花時間精力甚至徹底不花,研發團隊把精力放在數據分析方法和如何經過分析結果推進業務增加和創新上。
到這裏其實咱們大體能夠得出結論了,就是有了雲服務和衆多的開源組件,阿貓阿狗還真都能玩玩大數據,關鍵是要有明確的業務目標,能採集到所須要的數據,能找到正確的分析方法,懂得選擇借力合理的工具。只要其中一個環節沒有作好,大數據項目將難以免失敗的命運,最後只看到研發小哥們一張張落寞的臉消溶在夕陽裏。
原文地址:大數據是阿貓阿狗都能玩的嗎