瞎談大數據

        數據自古就有,並不稀奇,數據前面加了一個「大」以後,這些年被吵的火熱,有的人說掌握數據就是掌控將來,到底如何掌控將來,你們都莫衷一是。火熱的背後,做爲一技術人員,咱們應該仔細思考。算法

        1、關於工具編程

        提及大數據,首先想到的是Hadoop以及Hadoop周邊生態Hive、Sqoop、Hbase、Zookeeper等,把大數據與這些工具對等,是錯誤的,大數據也並非非這些工具不可,若是輕量級的技術能夠解決,不必用這些重框架。Hadoop當然強大,可是維護優化成本比較高,不花幾年功夫去研究,很可貴心應手的去使用。做爲一個技術人員,使用工具當然重要,真正應該去領悟的是工具背後的設計哲學。架構

2、什麼是大數據框架

        對於什麼是大數據,這又是一個抽象的概念,做爲一個技術人員,我定義不了這個概念,我只能用個人一些經驗來淺顯的描述大數據。運維

一、可視化機器學習

二、數據採集、清洗、清除噪聲工具

三、程序設計(Java、R)oop

四、條件機率學習

五、優化大數據

六、算法、統計模型、機器學習

七、檢查數據一致性

八、直覺

九、各類各樣軟件知識

十、寫報告

……

也許還有不少標籤,經驗有限,並不能一一列全。對於一個數據技術人員而言,他須要有以下技能:

一、數據可視化

二、機器學習

三、數學

四、統計學

五、計算機科學

六、行業知識

        值的說明的是,行業知識每每決定了該數據產品的深度和運用度。是否存在這樣一個精通全部技能而且是業務專家呢?答案確定是否認的。

那麼大數據怎麼作,怎麼才叫有成果,要作的什麼程度,如何檢驗,肯定怎麼樣的方向,這即是我苦苦思索的問題。

3、關於職業

        一些耳熟能詳的詞Hadoop、MapReduce、HDFS、HBase、Hive、Pig、Sqoop、JStorm、Mahout,做爲技術人員,一聽到這些詞彙,總會有敬畏與崇拜之心,或許不少人認爲掌握了這些工具,就掌握的大數據,然而並不是如此。工具始終是工具,寫過MapReduce、Hive SQL,用過Sqoop導數據,這些並非大數據,這些只是最基本的吧。

        不少公司對於大數據崗位職責界定模糊,或許不少公司但願一我的專多項技能:業務架構師、建模工程師、Hadoop運維工程師、算法工程師、JavaEE架構師等等

        對於據說過大數據這個概念,想投身其中的年輕人,我只能說這是一個坑,大數據必然是作的多,精的少,花的時間多,收穫小。爲何這樣說,要作的精,一定是對某一行業某一業務的深入的認識,比方說電商的推薦業務,沒有多年業務積累,怎麼構建出業務模型,沒有高深的數學功力,怎麼構建出數據模型,沒有深厚的編程功底,怎麼寫出優質算法出來數據……

        一貫癡迷技術的我,我也只能說大數據是無底深淵。

4、關於規劃

        我不止一次問本身,JavaEE架構作的好好的,爲何選擇大數據這個坑,其實最初的理由就是對技術的嚮往與執着,我甘願跳坑,跳坑了不作出一點東西來,又不甘心出來,只能用這句話來描述心裏的掙扎「寶寶內心苦,可是寶寶不說」。

        大數據範圍那麼廣,工具那麼多,我能夠作一點什麼。思來想去,我想作一個開放式數據處理平臺,初衷也是簡化大數據處理。

        Hadoop使用門檻高,把你圖形化、厭倦了Hive的命令行,把你圖形化、厭倦了用腳本批處理任務,寫個流程引擎把你圖形化,Hadoop安裝麻煩,把你圖形化安裝、Hadoop查看文件麻煩,把你圖形化,機器學習算法很差寫,把你圖形化……

相關文章
相關標籤/搜索