你們好,我是智浪淘沙,在大數據比賽的圈子裏你們喜歡稱呼我爲浪叫獸。git
我先作一個簡單的且不如意的人生軌跡介紹把,出生農村的我,對本身的才智一直是很自信的。多是因爲本身的天性,不會表達本身加不會循序漸進的喜歡上學習,我小學和初中都默默無聞,成績也不怎麼理想,可是始終好着面子,依然是以爲本身很聰明,本身之後能幹些大事。而時常被考分的現實所打擊。進入高中後,人開始長高了,人也帥氣了一點點,玩心也大了,學了學校的美術,音樂,播音主持,體育的專業課,其中美術多是一個星期,播音主持半學期,音樂半學期,體育好像一直到高三,可是沒報專業考試。當過學生會主席,還有班長。高中很開心的過去了,高考也和最後一年的意料以內的事情同樣,黃了。面試
畢業以後去了北京某某培訓機構,學了兩年的Linux運維,可是苦於性格放不開,年紀過小,當時還很排斥90後,固然還有學歷過低,在北京處於很尷尬的地步,並沒辦法在北京落腳。算法
10年在深圳,作過銷售,作過簡單的電腦維護,12年回到長沙開上了圖文店,天天起早貪黑,超過十二個小時的個體戶工做,身心疲憊,萌生了再次進入職場的念頭,15年在朋友的介紹下進入了電網系統內的一家運維單位,作網絡運維,能夠簡單稱爲網管把。sql
15年入職網管,我心裏是很激動的,終於踏上了求之不得的職場,認識了不少熱心的同事,而且接觸了很潮流的名詞,股票投資,並學了假的波浪理論,假的纏論,假的量能理論,並花了2W了的學費,戒掉了股票投資。編程
一切從浪叫獸開始。flask
錢輸了,人卻沒所以放棄對技術的研究,萌生了想法,但願經過爬蟲抓取股票的新聞,來分析新聞可能對股票產生某些信號。16年4月份在爬蟲羣裏遇到了我Python的第一個老師,大魚,我親切的喊他爲魚神。在玩Python爬蟲的同時,我學會了簡單的flask 和echart。網絡
對於歷來不會Python的我,幾個星期的學習下來,從Python爬蟲,到將數據入庫,還有用js的網頁方法展現股票數據,就這樣簡單的完成了。激發了我對Python編程的愛好。併發
因爲須要對數據進行處理,在Python的環境下須要學習一個叫pandas的庫操做,我加入到了pandas羣,遇到了人生中的啓蒙叫獸,牛叫獸,在牛叫獸的耐心指導之下,我pandas的使用,還算很融會貫通了,由於個人提問多,短短的一個月,我就在pandas羣裏得到了叫獸的稱呼,叫獸是QQ羣的一種積分排名,剛恰好發言最多的人被稱爲叫獸,後面在網友chengxu等人的玩笑話之間,叫獸在我建的新羣中繼續獲得了延續。框架
我喜歡被人稱爲浪叫獸,由於這是一個比較活躍的人才能在羣裏取得的頭銜,在我看來我是多麼的熱愛學習才能得到這樣的頭銜。運維
當初牛叫獸說他想學機器學習,當時我很羨慕他的工資待遇,1W2左右把,在上海可能不高,可是對於在長沙待遇只有4000左右的我來講,卻顯得那麼的高不可攀。
既然牛叫獸說他想學機器學習,那我就跟他一塊兒學唄,咱們建了一個羣,並找了學習資料開始學習起來,當初我下載過一份黃博的機器學習筆記,並加入了他的羣。在建羣后我就在黃博的羣裏,拉了20多個朋友,加入了學習機器學習的生涯。
學了一個月左右把,羣裏的mat,說羣主你這麼好學,不如去玩玩比賽,而後他就發了科賽的網址,正好遇到了我人生中的第一場比賽,攜程賽。
第一次比賽的我其實很逗比,沒有使用過sklearn,xgboost,lgb,各類算法也只在一個月中看過幾率圖模型,統計學習方法,數學建模算法大全瞭解過一些基本知識。
上一個月和牛叫獸,chengxu,Silence,在羣裏交流的都是一些算法上的簡單理解,還有hadoop,pyspark,sql。
還好Silence曾經玩過滴滴的比賽,好像排名還很靠前,只是由於要考英語證書,沒時間指導我。我就厚臉皮的在攜程賽的羣裏,不懼他人的嘲笑,用簡單的散點圖,和柱狀圖在羣裏用個人理解分析數據,並在交流的過程當中認識到了,李老師,鋼的弦,世超,等等熱心的夥伴。
依稀記得當時有yesboy(榮獲「猜你喜歡」比賽冠軍),說他使用的xgboost算法,在攜程賽中得到了前5的地位,對我來講xgboost是一個陌生的名詞。
不少新人安裝xgboost都要折騰半個月之久,我想都是不善於本身動手把,或者沒人指導安裝,勤勞好學的我,只花上了一天的功夫,安裝好了git,mingw,編譯xgboost,安裝xgboost,並測試安裝成功。無非就是在網上多搜索了一些文檔把。
安裝完成xgboost,他不過是一個冰冷的庫,當時也很厭倦去網上搜索使用教程,不過說實在的,網上的教程也不是講的攜程賽的數據上怎麼用,那就伸手黨作一下把。
切換到黃博羣裏,黃博羣裏有一個,人稱海淀吳彥祖,聽說是玩kaggle的,猜測xgboost對他來講確定很容易,這人必定很牛叉,果否則,我向他提問xgboost怎麼玩,他也耐心的指導我,要調好參數,但是我是一臉蒙逼的問不下去問題,我壓根沒玩過,我怎麼知道什麼是參數,後面他的一句話讓我在整個比賽生涯中都留下了思考,他說這一切都是套路。
Silence剛好有時間來玩比賽了,當時和世超,李老師(五個月就拿下了天池的數據科學家)mat,納藍,鋼的弦,組了攜程賽的小交流羣,你們都很友善的指導我這個新人,一塊兒交流學習,而正當此時,破特曼,以0.17 的bug成績霸了攜程賽的榜,好像又發現了一個新的大牛,便和他糾纏起來,請教他怎麼弄的那麼高的分,心有不甘把,爲啥人家能這樣高的分,我卻不能,便在找到了海淀吳彥祖指導,我說xgboost的簡單使用我已經會了,能不能在教教其它的,在不經意之間發現,海淀吳彥祖和破特曼竟然是隊友。
終究是抱團打戰的,不過世超最後也擠進了排行榜前十,鋼的弦和yesboy也在前五了。
再次遇到超強組合是在今日頭條上面,攜程賽完了,比賽的熱情卻沒有熄滅,在羣裏他們說今日頭條賽是yin叔和老王的約戰賽,當時想這兩我的又是誰,既然能約戰,那就有華山論劍的精彩,那就去湊湊熱鬧 ,報名了今日頭條賽。
下載了今日頭條數據,我始終排名在100多名,始終仍是找不到數據挖掘的關鍵。
在mat的帶領下,我加入了DC一羣,看到了老王開源的規則代碼,在交流規則代碼的過程當中,也在羣裏認識了蒼老師,yin叔,和一些羣友。
我當時並看不懂R,而牛叫獸在公司已經完成了hadoop的學習,並開始學習R作統計方面的學習,下載了老王的規則代碼,便要牛叫獸幫忙翻譯了R代碼,翻譯以後提交了答案,發現竟然跑到了前30名,瞬間以爲老王好牛叉,簡單的兩三句代碼竟然能讓我突破那麼多。
對老王萌生了仰慕之情,不過那都是想多學點技術了。
不過30,名有啥用,海淀吳彥祖和破特曼的組合都已經前十了。我和他們的差距真的太大了。
競賽圈子說大很大,我歷來不知道數據挖掘能有這樣多的高手,在一直關注着比賽,並且此時我身邊都是不少本科生,不少研究生,還有博士生了。
我不知道這意味着什麼,可是仔細思考。我和他們的差距實在是太大了,不過我也堅信,我和他們一塊兒交流,能有所收穫,我要作的就是和攜程賽同樣,勇於交流個人想法,勇於和技術高的交流,在今日頭疼賽中,我就繼續保持了攜程賽的風格了,便和知落,東哥,等等小夥伴,一塊兒交流數據挖掘技術,並知道了交叉驗證,網格搜索調參,還在知道了多模型融合,不過了解這些技術也並無讓個人今日頭條排名繼續靠前。
機緣繼續來自電網。
今日頭條賽便不了了之的結束了,由於幹不過人家嘛,提高不上去了,玩起來也沒多少意思了。
繼續在羣友發佈的信息下,知道了CCF要舉辦一場大賽,此次大賽有13個賽題,其中也有國家電網信通產業集團主辦方出的用電異常行爲分析賽題。
由於在電網系統下的公司工做,一個是想借由這次比賽得到經驗,二是想經過好好的參與這次比賽,好轉型數據挖掘崗位。便報名參加了此次用電異常行爲分析賽題。
剛剛開始玩,發現第一名遙遙領先在排行榜,在技術交流羣裏也認識了這位可樂,和可樂的交流很開心,由於又發現了一個新大牛kaggle master 。當時我還在30多名的成績把,在和技術羣的羣友交流的過程當中,學會了簡單的特徵工程,其實也就是普通的描述統計量,能夠說是最簡單的了。
排行榜玩了沒多久,我驚奇的發現,破特曼和海淀吳彥祖和可樂並隊了,好強悍的隊伍,讓我有一種衝動接近他們,甚至是超越他們,隨即在交流羣裏,大喊一句誰和我一塊兒幹掉破特曼。
在交流之下,有小水,老王,蒼老師,mat,鋼的弦和我組了交流羣,由於前期的比賽時間太長,並且只要前100名就能夠進入小複賽。在短短的幾天交流中,我從某位羣友給的思路中學會了稍微高級一點的特徵工程,並由此設計了生成高緯度特徵的特徵輪。
而複賽卻沒能和小水,老王,蒼老師組隊。我和mat,鋼的弦,加上兩位很是熱愛數據挖掘的小夥伴,組隊‘隱馬爾科夫聯盟’。
在努力學習和參考各類書籍的前提下,還有比勝過程中,金老師和我電網系統的一位朋友兼對手,對個人指導。咱們組最終得到了用電行爲分析賽的第二名,並受邀答辯奪得了該賽題的二等獎。
不過,真正的實力總能壓制着我,破特曼他們收穫了該賽題的第一名,而且在線上的分數遠超咱們。
在答辯的盛會上,見到了不少人,其中有中科院院士,以及各類機器學習,人工智能,數據挖掘的領軍人物。
在用電賽會場,和我一直好奇的破特曼和吳彥祖線下的交流是很愉快的,還有很重要的是,在這次比賽中,見到了信通產業集團的領導,這也算是和企業直接進行交流了。
答辯賽後,信通產業集團的領導,很親切的和咱們參賽成員進行交流,並給了名片,說歡迎各位人才加入信通產業集團。不過我深知我這點能力遠遠不夠進入企業工做,一個比賽排名並不能說明我的能力,或許只是我我的運氣好而已把。
經過此次比賽,不只僅爲了工做把,並且也真正的感覺到了數據挖掘的魅力,對數據的處理,並經過掌握數據的規律,推進各類行業的發展,讓數據成爲行業的肥料,促使其茁壯成長。
答辯返程回家,我又開始了新的一輪比賽。
可能出於心裏虛榮的膨脹,這裏我也本身弄了一個小插曲,我喊羣內的朋友發了一篇自媒體,併發在個人朋友圈中,沒想到這文章引來我身邊不少親戚朋友的讚揚,並且所以直接得到了湖南本地企業的邀請,從事大數據技術的研發和建設,並開出了20一個月的待遇,不過很遺憾的是,我心裏仍是很自卑的,一個是我沒法接受如此好的待遇,二是我對金融行業並不瞭解,三是若是我帶領團隊,給企業帶了損失,我也沒有能力擔此責任,出於這些想法,我仍是委婉的拒絕了這份offer。
可是對數據挖掘崗位的追求,讓我沒辦法停下腳步繼續參賽。
經過半年的學習和努力,苦心摸索技術,苦學記在心尖,拿到了CCF舉辦的用電賽第二名,大體瞭解了海淀吳彥祖說的套路,不過可能也是一些皮毛。
正好手頭上還有一個比賽,DC的助學金比賽,我準備用我所學的數據清洗+特徵輪+多模型+參數調優的常規數據挖掘套路玩助學金比賽,直接用上用電賽所總結的特徵輪思路,加上簡單的模型,我很快就得到了助學金排行榜的第二名,並喊上了前期交流的赤子之心,鋼的弦,mat,還有我當初學pandas一塊兒的夥伴 chengxu。組隊「貝葉斯部落」,剛剛開始做爲隊長的我其實很自負,由於我自覺得熟悉的掌握了數據挖掘的套路,我對其它隊友的指望僅僅是分配任務和但願獲得更好的業務特徵,並在此時,信通產業集團邀請CCF獲獎的參賽者,一塊兒參加成果落地研討會,並註明了洽談就業意向。
這對我來講又是一次重拾數據挖掘崗的機會,我和mat商討,助學金的PPT由咱們兩個一塊兒再次稱述。
在研討會上,因爲個人表現突出,我的比較活躍,並且個人奮鬥事蹟和對數據的直覺,讓參會的來賓和信通產業集團的領導對我頗多讚揚。
因而我抓住了此次機遇,向領導請求進入信通產業集團旗下作大數據挖掘工做,從北京的研討會歸來,我很快的製做了一份我的簡歷,發送給信通產業集團的領導,領導二話不說當即將個人簡歷發送給了信通產業集團旗下的一個公司。
幾個月的付出和努力,終於讓我看到了回報,心裏盡是高興。隨後沒過多久就和HR取得了聯繫。由於此時已經接近年尾,HR說年後詳談面試和offer事宜。
正直過年,經過融合技術,在過年以前拿下了助學金第一名的排行榜。
年後,助學金比賽中個人特徵+模型融合方案,很快的再次被破特曼,不思蜀組的BUG隊超越。而此時他們也在DC的另外兩場比賽取得了很是好的成績,交通賽第一,金融賽忘記了。
已經逼近個人上限了,第一的位置被拱手相讓了。此時我隊友赤子之心爆發了,直接用了他的單模型+特徵,霸了助學金第一,以超出第二名很是高的成績,在助學金更換數據以前,霸榜了一個月之久。
換數據以後,多是由於以前並沒用針對過咱們的最佳方案設計融合框架,助學金最後和三劍客並列第二的得分。第一被另外實力高強的小夥伴奪得。
在DC助學金比賽的過程當中,也認識了濤哥(固然濤哥在我去北京研討會的時候面基過一次)等在企業從事大數據方向的工做的做業人員,並在交流中也得到了他們的內推,收穫了京東和融360的算法工程師的面試。
時間很快來到了DC的線下答辯會場,在DC的安排下咱們參觀了對數據挖掘,機器學習,神經網絡有需求的公司,聽了他們公司業務還有對大數據技術的需求,還有數據挖掘具體的應用場景和數據科學家們平時在數據方向作的工做。
答辯完,由yin叔喊話,咱們和神經網絡keras羣羣主莫言,還有其餘參賽選手包括老王,DC收割了三個比賽的兩個第一,一個第二的BUG隊,總計15人組起了飯局。
成員中,yin叔是在國企工做的老職工,以咱們的年紀都要尊稱他爲yin叔了,不管是在答辯會場,仍是在平時的羣裏交流,或者是咱們線下的交談中,yin叔都是以興趣爲導向的玩着競賽,各類敬佩之情油然而生。
組織飯局的莫言和他的室友,研究生還未畢業,就已收穫了騰訊和大疆的正式offer,對神經網絡有很深入的自我認知。還有老王,很可愛的博士,平易近人,已經在老牌外企得到很是自由的工做。固然還有BUG隊,這次都已經第二次見面了,還有個人隊友赤子之心,在部隊的他也是由於對數學的追求,纔來玩大數據比賽的,未成想過第一次參加比賽就得到如此好的成績。固然還有不少在校和在職,還有和我同樣剛要入職的朋友。
你們把酒交談,交流各自的比賽經歷,比賽心得,還有比勝過程中如何認識的其它夥伴,固然還有讀書經歷,找工做的經歷,對大數據行業的想法。
自此從16年的4月份開始入門Python,到17年的3月份的經歷,讓我進入到了潮氣蓬勃的大數據行業當中。
答辯回到湖南,接到了來着信通產業集團下的項目經理的電話,說咱們的項目在我如今所在的城市啓動,項目是整套的大數據搭建 + 挖掘的項目,從彙總各個系統業務數據開始,也包括採購設備。對我來講是很是可貴的機會。雖然咱們玩比賽不少都是得到的公司的算法工程師的面試,我深知那個是須要很專業的理論知識的,我也一直在比賽的過程當中讀了很多於100本的書籍(固然不少都是略讀),越玩比賽多了,反而更深知我離算法崗有多少距離。京東和融360 的算法工程師待遇頗高,可是我目前的水平是不能勝任的。
而信通產業集團的知遇之恩,還有我也一直在電力系統旗下的產業工做,我我的對電力系統仍是很有好感,我也相信如今的工做崗位給我也會帶來一段很是豐富的人生經歷。
本想寫不少心得的,但一千個讀者眼中有一千個哈莫雷特,我就最後簡單的總結一下這一年的經歷。
從比賽開始,我從單身到完婚,到有了小孩。並且一直都是在職玩比賽,其實不少時候,我仍是很累的。不過在比勝過程中,不管是遇到大牛的關照,仍是遇到比我更牛的「新人」,對的這裏的「新人」只是第一次玩比賽而已,這些人都比我更具能力和天賦,我只是置身在他們中間,充當了一個媒介而已,個人人生被他們帶動着往前發展,對於這一年的運氣,我非常知足了。
努力的人不少,我只是運氣好而已,雖然是運氣,我仍是想把他說成是努力得來的。不能磨滅一個想努力的心態,好好努力過上本身能接受的生活就好 不須要很好 至少能說是平凡的一輩子。
此文已經有DF比賽平臺約稿轉載 寫於2017年3月份