回望過去與展望將來(數據挖掘)

  2017年06月14日,距離畢業時間恰好是兩年整,一路走來,有太多的故事。做爲一個非985,非211畢業的學生來說,相比之下,成長的道路上仍是有些崎嶇不平,亦或是蜿蜒曲折的。但是人就是這樣,沒有一點曲折不平,反而顯得平淡無奇,無任何故事可言。面試

  畢業以前,在深圳的一家醫療設備有限公司實習,招我進去實習的是一個滿頭白髮,看上去頗有學問的博士。而且仍是中科大畢業的。誰知我進去才發現原來是個大坑,沒辦法,進來了就沒那麼容易走了,主要是一方面實習生的身份比較尷尬,二來本身能夠利用公司的資源本身學習一些技術也是不錯的。前先後後我在這個公司待了一全年。也當是在這個公司本身進修一年吧。算法

      是的,我離開了實習的公司,來到如今的公司——互聯網金融公司。主要作的事情是數據挖掘相關工做。在這家公司遇到了不論是人生仍是職場當中比較牛逼的同事。跟他們在一塊兒工做,你天天都在進步。這也是我爲何後來非要去「大廠」的緣由。跟聰明優秀的人一塊兒工做,你收穫的不只僅是工做上的,更多的是技術積累、以及一些作事的方式和方法。這些作事的方式和方法就能反應一我的的能力和水平。 甚至,與優秀的人在一塊兒工做,你的眼界和視角都開始變得高級不少。這裏簡要的說明一下:當你接到老闆或者leader一個項目的話,首先須要瞭解的是項目的業務背景、項目的意義,項目當中存在的技術點,項目的評價方式和指標,以及後續上線或者優化的方法。  這對我來講有很大的幫助。數據結構

  人生就是這樣,好景不長,在這個互聯網公司接連兩個比較優秀的leader離咱們而去,去追求他們更好的人生,加上Boss對機器學習的技術並非那麼信任,在Boss眼中,機器學習暫時還作不出什麼東西出來,最重要的仍是數據。Boss有這樣的見解也是沒錯的,可是他忽略了咱們作技術的人鬥志或者說是自尊心吧。技術人員是須要獲得的老闆的確定纔會有成就感的,進而纔會有工做上的動力。猶如將遇良才,將得有愛才之心和愛才之道,良才纔會有後面的報以知遇之恩。而咱們的老闆忽視了這點。另外一方面,在互聯網金融公司的數據量對於一個作大數據的人來說仍是至關小的。這也是咱們作技術存在侷限性。機器學習

  是的,你想的沒錯,有了前面的鋪墊,我就想着該去「大廠」裏面積累積累了。纔有了我想寫這篇博客的緣由。主要是想記錄一下在去大廠面試的一些點點滴滴。學習

  若是你打算去大廠,首先須要作一下幾件事情:大數據

(1)複習你所涉及的領域裏面的一些基礎知識,特別須要注意基礎知識裏面的一些細節內容。我涉及的是機器學習領域,主要包括:優化

  • 常規的機器學習算法的數學原理和公式推導,如:線性迴歸、LR、SVM、ID三、C4.五、RF、GBDT、XGBoost
  • 工程實現能力,主要表如今數據結構的算法題目。
  • 實際的項目技術能力。如:推薦算法、深度學習。

(2)整理項目(讓面試官感興趣的項目經驗很重要)url

  • 首先須要明確項目的背景及其意義。
  • 對本身的項目中的一些問題進行思考,須要從幾個大的方面去講,體現出邏輯性。
  • 項目中使用的一些技術細節內容須要去吃透
  • 在項目中的一些問題要有本身的見解和看法
  • 最後項目取得了什麼樣的成果

(3)考慮問題,須要從抽象的層面去考慮,分步解答,有必定的邏輯性。好比:若是讓你去涉及個推薦系統你會怎麼考慮?回答問題的時候須要考慮一下幾個方面:spa

  • 咱們擁有那些用戶的數據源:如用戶瀏覽歷史、用戶歷史行爲等
  • 咱們會根據具體的業務狀況,考慮選擇什麼模型比較合適。user-based or item-based。
  • 根據前面的數據召回必定量的用戶或者物品。這個過程可能須要考慮數據量的問題。
  • 排序 

(4)找幾個中型的公司先去練練手(相似模擬考試同樣。)設計

  • 經過幾箇中型公司,對本身進行查缺補漏。
  • 針對本身的漏洞進行重點補充。
  • 這個過程實際上是認清本身的過程,發現本身的問題,或者讓本身對問題的認識更深一步。這一步對本身的提高蠻大的。

(5)運氣的問題

  • 有時候面試的時候,也是有運氣的。雖然這部門的因素所佔的比例比較小。

這裏面主要列舉一下我面試阿里巴巴和騰訊、京東的經歷:

阿里巴巴:

面試的崗位是阿里媽媽的搜索推薦組數據挖掘工程師崗位。

一面:面試官的語氣比較重,可能採用的打擊的面試方式,面試過程當中問了一下幾個方面的問題:

  • 針對項目問了一些問題。介紹項目的時候須要首先從幾個打的方面介紹,面試官會主動問細節的。必定要體現出你的項目邏輯出來。
  • 機器學習的一些基本問題:L1和L2,LR,RF和GBDT等
  • 數據結構的問題:ADTree結合實際的問題來問的
  • 深度學習的問題:用tensorflow實現LR

二面:

  • 介紹本身認爲比較牛逼的項目
  • 針對推薦系統,給定了一個場景,問我怎麼設計
  • 一些機器學習經常使用算法原理

三面:

  • 介紹本身比較牛逼的項目
  • 針對一些機器學習經常使用算法原理進行探討
  • 問了一個大數據的問題,兩個巨大的文件,找相同的url

最終三面掛了。比較惋惜。

 

騰訊:

一面:

  • 介紹本身作的項目
  • 針對項目細節內容進行提問
  • 機器學習經常使用算法的原理

二面:

  • 機器學習經常使用算法的原理
  • 數據結構算法的實現,須要寫代碼

惋惜,又掛了。

 

京東:

一面:

  • 介紹本身作的項目
  • 針對項目進行提問
  • 針對工程能力進行提問

二面:

  • 介紹本身作的項目
  • 針對項目的細節內容進行提問
  • NLP相關的問題:近義詞,熱詞等
  • 針對大數據工程能力進行考察

三面:

  • 介紹本身的項目細節內容
  • 項目的背景、意義、應用場景和效果的提高
  • 講解公司業務邏輯,主要是考察邏輯能力和業務邏輯能力
  • 閒聊

面試經過......

展望:

目前我所涉及的領域是:NLP、機器學習(推薦系統)、深度學習等領域。與中國的基本國情一致,還須要進一步提高本身的技術。主要會如下幾個方面考慮:

一、深度學習

完善本身深度學習的理論和技能。

二、機器學習(推薦算法)

積累更多的機器學習算法,主要偏向推薦系統中用戶意圖分析。

三、NLP

(1)天然語言處理應用在搜索推薦領域,主要涉及根據用戶的搜索(query)去分析用戶的意圖,進而才能更好的推薦給用戶。

(2)深度學習在NLP中的應用。

相關文章
相關標籤/搜索