關於大數據入門的相關閒聊

(本文摘自網絡,原文地址https://blog.csdn.net/limuzi13/article/details/50414835)
這篇文章可讓想要了解大數據的同窗對整個大數據目前的社會現狀有所瞭解,對於同窗們是否想要入坑會產生必定影響,可讀php

下面是文章原文:java

============原文分割線=============面試

00 緣起
之因此有這個話題,是由於週末加班中午吃飯與一個同行朋友聊起了這個話題,以後再細細地結合一些其餘接觸的東西,確實是有些感觸的。
而且對於行業的一些現狀,也的確有些本身的見解,對不對先不論,這玩意兒也沒有對錯之分,每一個人都有本身想法,固然也包括我博客蟲了。
因此,有些東西、有些想法我仍是願意分享出來的,暢所欲言吧~~
01 我眼中的大數據現狀!
其實我的在大數據在大數據這個坑中,細細算來,時間也有3+年了,從一開始作大數據中心平臺開發構建,到如今關注的數據上層應用挖掘。因此,基本上從數據收集->數據處理(離線實時,而且還勉強算是國內實時處理早期的實踐者)->數據上層應用挖掘,這個鏈路都走了一遍。
而且,加上手裏一千多人的大數據圈子,以及有過發起組織線下技術沙龍等等經歷,坑內裏的作的東西並不算十分的多,可是經過一些交流,接觸過的這方面的東西仍是很多的。
因此,不至於有資格說對這個技術方向有啥定論,可是一些本身的見解看法仍是有滴。
提及大數據,有個成語能夠來形容一下它的現狀:遍地開花!
現在,在國內,只要是個IT公司(說的是非傳統行業),出去的時候,感受要是說本身公司沒有涉足大數據都很差意思。
因此,如今的狀況大部分是這樣的:一個創業公司哪怕只有十多人的開發團隊,也非得整一個大數據小組出來,咱們不止要作大數據離線處理,還要作離線處理,不止有數據分析報表,咱們還得進行深度的數據挖掘,作到精準的個性化推薦,流弊的數據預測!
偶滴孃親啊,寥寥數人,不止要搭起一整套完整的數據收集、數據傳輸、數據離線實時處理,不止要維護hadoop集羣、spark集羣、storm集羣的穩定性,抽空還要作深層數據挖掘,還要研究工業化流弊的算法。
大家招的這些人不是攻城獅啊,是神啊!這麼流弊!
其實我並無說這種作法必定是錯的,只是行業現狀真心不少這種狀況。現在,大數據確實是異常略微畸形的火爆!
至於說大數據這個技術方向爲什麼會如此的爆炸,我的的觀點可能和大部分的觀點同樣:一方面是數據積累到必定程度了;另外一方面是大規模數據處理技術的日漸成熟,其中固然以hadoop生態爲表明。
但在不久前,我曾和一個創業公司的COE聊過這個話題,他的觀點很新穎。他反駁了個人觀點,他說中國如今之因此大數據遍地開花,是因爲賺錢模式變了。
他說,在之前,隨便搞點啥都能拉到一大坨投資,但如今經濟形勢不同了,必須想其餘新的觸發點,那就是數據,而且圍繞數據而產生新的利益點,這樣,投資人才願意投錢進來。因此,是個公司都願意和大數據沾點邊,否則都很差意思出去說。
就我的而言,其實感受他說的也挺有道理的,不過我依然保持本身的見解,只是兩人看待事情的角度有些不同,我是從技術的角度去解析這個狀況,而他則更多從創業者的角度試圖去解釋這個事情。無關對錯!
就目前來講,業內大數據遍地開花這個狀況確實是存在的,我的感受大致上有以下的具體變化:
(1)涉足的數據處理方式上來講,大規模離線處理已經被玩壞了,稍微有點實力的公司都已經開始離線、實時並行了(近一兩年Storm、Spark強勢崛起);
(2)而在數據來源上,已經再也不侷限於自個的數據了,愈來愈多的公司開始爬取互聯網上的公共數據(我曾在《DT時代變革的反思》一文中比較詳細的分析過這個數據新來源);
(3)而在數據的上層應用上,也已經再也不侷限於多維統計分析,漸漸得向用戶畫像、精準個性化推薦、業務的預測等方向靠攏(但實際上深層挖掘方面,國內仍是很low的);
1
2
3
002 大數據年份這東西!
以前和朋友吃飯時聊的時候,他說到大數據這個技術方向的積累問題。他曾感嘆到,大數據這個方向仍是缺乏底蘊。
我問他爲什麼這麼說,他說你見過十年以上的大數據專家麼?其餘行業方向,比比皆是!我頓時無語,大數據這個技術方向滿打滿算才發展不到六七年吧,上哪找十年以上的大數據專家去。
狀況確實是這樣的,基本能夠分這幾種狀況吧:
(1)在這個坑裏,真正五年以上的大數據背景的人,已經能夠算的上是半個專家了,業內絕對是稀有動物(因此,常常看到那種招聘簡歷寫到十年以上大數據行業背景,我就笑了);算法

(2)而諸如三四年的,會點數據架構,又會點上層數據應用挖掘的,估計至少也能算的是半個中堅了,這種人不算太少,但也絕對不算多;後端

(3)最多的是那種不到兩年大數據行業背景的,特別是那種聽聞大數據行情好,紛紛轉過來一兩年左右的,再就是那種一畢業就立志投身大數據行業的新人朋友,這類型的人應該是佔據大數據從業人士中的絕大部分。
1
2
3
4
5
這個方向倒是缺乏累積的,常常在羣中(storm-分佈式-IT技術 191321336)遇到那種號稱是搞大數據的,而後問到:hadoop和storm哪一個比較好?
個人天吶,爲什麼他們那麼喜歡把兩個不是一類東西放在一塊兒比較?!我都無力吐槽了,就目前來講,大數據這個方向確實缺乏底蘊,還略顯浮誇,須要時間去積累。
003 企業在招什麼樣的大數據工程師?
(1)剛洗白一兩年的,或者立志爲大數據行業作貢獻的畢業生。
剛纔說大數據行業遍地開花,人員稀缺,從我的經從來說,這真心是這種情況。
業務重心逐漸偏移到數據部,因此部門急劇擴招(固然也有老員工離職的問題),近三個月來,我陸陸續續面試了大約有7我的左右吧。
面試的人中有兩三年工做經驗的,也有四五年工做經驗的,固然也有剛畢業的本科生或者碩士生。
看年份感受都還不錯是吧,可是若是你翻一翻簡歷就會哭了。就說說三到五年工做經驗的吧。
簡歷中,項目經歷一項一大溜啥XX管理系統、XX電商後端開發項目,翻了八九個項目,終於在最後看到辣麼一兩個大數據有關的項目。而掌握的技術中是各類的什麼Spring MVC啊、SSH啊、js啊、甚至是php之類的,只有寥寥數個什麼hadoop啥的,還不敢放在前頭,當時我就哭了/(ㄒoㄒ)/
狀況真是這樣的,工做經驗足的,不少都是剛從其餘技術領域轉過來的,其中以開發java後端,諸如精通什麼MVC框架的人羣爲主體。
能說上hadoop是怎麼回事,會點MapReduce、Hive之類的是常態;會點Spark,能寫Scala,知道Storm的,少之又少;能把整個數據框架流程說清楚的都是奇才了;至於說到大規模數據的深層挖掘,他們是這樣說的「沒怎麼接觸,但有這個興趣去學」。
行情確實是這樣的,大數據的坑挖的太大,因此各個公司都缺人,並且仍是奇缺,因此也就有了上面我說的現象,各個行業,特別是傳統IT行業的從業人士,紛紛轉入互聯網,投身大數據。而有點大數據經驗的,大部分都是香饃饃似得供着,不肯意放手。
因此,最終咱們這邊實際狀況就是,問HR咋回事,HR說JD發出去無數份,能拉過來面試的就醬紫了。
最終大老闆發話了,說到:經驗差點不要緊,只要腦子活願意學,就要!因此,7我的,offer就發出去4份。
但更悲劇還在後頭,兩個有大概平均1.5大數據經驗的人,拿到offer後根本不鳥之,也也不知道後來去了哪一個公司,而最後進來的是兩個本科以及碩士應屆畢業生。
(2)咱們來看看一些「喜人」的招聘需求。
隨便翻一翻招聘網站的職位需求,天天都有大量的大數據相關職位被刷新。而後結合剛纔咱們所說的一些混亂現狀,你會發現不少「喜人」的招聘說明。
我但願的是,用人的公司也好、企業也好,看完這個以後,能對招人有個更清晰的定位。
咱們要的是大數據行業專家!
JD中是這麼描述的,十年以上大數據領域經驗,而後會XX,而後又得會XX。再多的俺就很少說了,結合剛纔咱們說的大數據行業歷史。十年?我就呵呵了

我所看到的這種JD,大部分出自於傳統IT行業(看到沒,傳統IT行業也開始追趕潮流了),而互聯網公司職位描述就含蓄多了,最起碼他們不會動不動就要十年以上「磚家」。
並且還有一點我的想吐槽的就是,你說十年就十年吧,給待遇還奇低無比。關於這一點,互聯網公司就比較明白事理的。
關於大數據薪酬這一塊,咱們再進行分析分析~~
咱們要的是能進行大規模數據挖掘的人才!
關於數據挖掘,上面也稍微提到過一點,數據的上層應用挖掘,這個需求隨着數據處理流程日益完善,數據的應用已經從簡單的多維統計分析,慢慢得向深層挖掘過渡。
不說大規模數據,就說傳統的數據挖掘,其實這塊就國內的狀況來看,仍是處於比較初級的狀態的。
咱們常常看到這樣的職位JD描述,Title寫的是「數據挖掘工程師招聘」,而後附加條件是,熟悉大數據領域,會MapReduce、kafka、hadoop、storm、spark,熟悉ETL,對若干NoSQL瞭解熟悉,可以進行平臺搭建,平臺開發,可以進行數據處理,會分類、聚類、用戶畫像、個性化推薦各類算法。
最後在工做年限上寫着「1-3年」(年份太足是很貴的嘛)。個人天啊,他們看樣子不止是想招數據挖掘工程師啊。
他們像是在招ETL工程師;不對,應該是大數據平臺開發工程師;也不對,好像確實是在招數據挖掘工程師,沒看到有算法需求嗎。
我趕腳呀,他們不是在招數據挖掘工程師,他們是在招一個全能工程師,是在招一個神啊。
(3)說了很多,對於大數據人才招聘這塊,簡單的總結一下吧!
其實我的感受,企業仍是須要對本身崗位定位要有一個比較清楚的定位的。
若是你的資金足,想招一個業內權威點的,專家級人物,不要緊,但你也別睜着眼瞎說十年吶。上哪去給你找十年專家啊!
因此,我的建議就是,瞄準在大數據領域真正玩過五年以上的,基本上就是牛人了,也足夠你用的了。
而後針對剛纔說的「數據挖掘」招聘現象,其實定位也很重要了,真心想要招一個相似「全能」的人,至少也要找一個在這個領域待過3+年的。
至少三年以上的時間,這種人會對數據架構,數據處理流程,甚至是上層數據應用挖掘,都有相應的經驗,而不至於空白一片,而且容易帶動其餘一年半年的大數據經驗的人,作方向導向,團隊就能快速造成大數據戰鬥力。
因此,若是真心想要相似這種「全能」,真心實意點,把年份改到3+吧,而且要求實打實的3+大數據技術背景,估計差很少。
接下來就是那種一兩年的大數據技術背景的,這種以java後端開發轉行大軍爲表明。若是你的預算瞄準的是這個市場,那你也別玩虛的,對口招聘吧。
要作大規模離線處理,你就招會hadoop的;須要實時處理,你就招會Storm或者會Spark Streaming的;須要作ETL,你就招熟悉ETL流程的;招數據挖掘,就找會點算法的。這纔是實在的!
而對於應屆生來講,我的趕忙項目經驗都是其次的,哪怕是一些實驗室項目經驗來講,也沒啥大用。好歹算是接觸過一些內幕的,因此實驗室項目的質量,咱就很少說了,呵呵就好了。
因此,咱們看的一是基礎能力。就我的的感受來講,基礎能力固然沒必要說,我更偏向於對大數據技術感興趣,而且思惟敏捷的應屆生。
爲何這麼說呢?由於大數據技術這個領域會涉及大量的新事物,各類開源的東西,經驗少不要緊,只有思惟夠敏捷,有強大的快速學習能力,那就沒有問題!
004 咱們真的須要算法工程師嗎?
接着剛纔的話題,很多企業公司打着招數據挖掘工程師,算法工程師,我在想他們是真的須要算法工程師麼?
答案顯然是否認的!
我曾關於數據挖掘工程師與算法工程師的區別問題,跟很多人討論過,個人我的見解是,算法工程師的範圍顯然是小於數據挖掘工程師的。
數據挖掘工程師須要瞭解整套數據流入的過程,包括數據的接入、預處理,而後須要知道怎麼用數據解決實際的業務問題,說白就是想辦法讓數據產生價值。
他須要知道一整個數據到業務輸出的機制或者說是系統,可能涉及到複雜的算法轉化,也可能只是簡單的規則轉化,或者多個模型的轉化組合輸出等等,他是一個比較全面而歸納性定位。
而算法工程師則不同,他們的職責我認爲更純粹,他們須要知道如何把現實問題轉化爲數學的模型,而且把模型調到極致,從而解決問題。因此,算法工程師工做內容更單一,可是更專,須要更好的數學功底。
這也就是爲什麼我不敢對外說是算法工程師的緣由了,我怕被揍,哈哈~~
OK,有點繞遠了。咱們回過頭來講說,目前大部分公司企業在找大數據的人,同時也在找數據挖掘工程師或者算法工程師。
那麼,企業或者公司如何在數據挖掘這塊進行定位呢?我我的認爲,大部分中小公司是不具有找純算法工程師條件的。若是,有小公司說要招算法工程師,要麼是金多任性,要麼是打着招算法工程師的幌子,招會點數據挖掘的人。
至於緣由呢,一方面是算法這塊,在國內屬於稀缺資源,因此成本都比較高;另外一方面就是在實際的業務操做中,高深的算法模型難以工業化(因此,大部分論文上的東西離工業化生產是很遠的,別被騙了);再者就是在數據挖掘領域,一些很初級容易工業生產化算法,甚至是簡單的規則定製,都在現階段已經能達到業務目的了,咱們又何須費那個勁呢?!
因此,我認爲企業在這種階段,大家需求是這種可以進行大批量數據處理,而後又知道怎麼進行數據工業轉化的人。由於,算法工程師在這種階段難以得到你須要的性價轉換。
包括咱們大數據部門內部也是一樣如此,算法小組冠着「算法」的頭銜,幹着數據處理的雜活。這須要時間去過渡!
固然,若是你必定要養那麼一羣專業的算法工程師,辣麼,我只能說,你拿的天使投資太多了,估計是不知道怎麼花了,養着就養着吧。
005 談一談薪酬,談一談人生吧!
最後,談一談薪酬,談一談人生,談一談理想吧!
說到談薪酬,談人生談理想這個環節,我想大部分都是比較喜歡的,我也不例外,我也很喜歡,哈哈~~
正如以前所說的,大數據這個領域,有點略微畸形的火爆,致使了這個方向很缺人,也正是大量java後端開發人員轉行的直接緣由。
由於缺人,他們就轉行麼?顯然是扯的!大夥兒都是有理想的人,要向「錢」看的。缺人,找不到人怎麼辦?提升待遇,天然就有了。
我看到過一份2014年的職業薪酬統計報告,其中大數據方向絕對是屬於偏高的。就我所知,除去金融行業的高玩們。
接下來就是玩數據挖掘的,特別是會大規模數據挖掘的人,若是是專業的算法工程師,那麼,就更讚了,麻麻不再用擔憂個人工資了。
而後就是遊戲行業的開發着,遊戲是個保利行業,因此他們薪酬高一些是很正常的。
再接下來就是冠以「大數據」稱號的攻城獅們。這類的,要麼是作平臺構建的,要麼是作大數據架構,要麼是作數據處理的等等。工資也比純Java後端開發、C開發、C++開發等高那麼半檔一檔的。
接下來跟大數據沒有半毛錢關係的職位啥的,我就很少說了~~
006 寫在最後
因此,整體來看,整個大數據行業仍是比較混亂的,企業對本身需求定位很混亂,雖然如此,依然是難以招到人。
對於投身大數據這個坑的人來講,我我的的建議就是,要入行沒問題,可是找準本身的興趣G點,別想着啥都想掌握。找準一個切入點,好比就是平臺搭建、就是ETL、就是寫離線處理程序、就是研究實時等等,而後,慢慢再往大領域中擴充本身的大數據知識庫存。
就我我的來講,從數據架構到數據上層應用挖掘,目前依然在坑內,也沒有打算從大數據的這個坑中脫身。
大數據這個方向是個技術快速更新、迭代的技術領域,因此,我的鼓勵坑中人士多多交流、多多分享才能跟上這個時代潮流。網絡

相關文章
相關標籤/搜索