阿里、騰訊、京東、微軟,各家算法&數據挖掘崗位面經大起底!

阿里、騰訊、京東、微軟,各家算法&數據挖掘崗位面經大起底!

2016-02-24  36大數據 36大數據



做者: 江少華面試

 

摘要: 從2015年8月到2015年10月,花了3個月時間找工做,前後經過內推參加了美團、阿里螞蟻金服、京東、騰訊、今日頭條、Growing IO、微軟這7個公司的面試,同時參加了網易遊戲、LinkedI In中國這2個公司的筆試,拿到比較優 …算法

 

從2015年8月到2015年10月,花了3個月時間找工做,前後經過內推參加了美團、阿里螞蟻金服、京東、騰訊、今日頭條、Growing IO、微軟這7個公司的面試,同時參加了網易遊戲、LinkedI In中國這2個公司的筆試,拿到比較優質的offer是京東Star和阿里星2個Offer。編程

 

應聘的崗位要麼是算法工程師,要麼是機器學習與數據挖掘崗,企業叫法不一樣,工做實質都是利用機器學習與特徵工程去解決業務問題。整個求職過程是一個和互聯網企業雙向瞭解,接收面試反饋後不斷思考、調整職業規劃與重複完善知識體系的過程。數組

 

本文經過介紹我我的的求職過程,向後來者揭示國內互聯網企業對算法&機器學習崗的要求、面試過程、薪資情況,也分享一些我的在這個過程當中積累起來的見聞、經驗。安全

 

本文分爲三個部分,筆試&面試、經驗心得、題目彙總。筆試&面試部分介紹各個公司的內推時間點、內推形式、我我的的筆試&面試狀況,對了,還有不涉及保密協議的一些薪資狀況;經驗心得部分簡單介紹簡歷、內推、面試的一些體會,對了,還有一些捷徑;題目彙總部分包括我我的3個月求職過程當中遇到的題目,分爲筆試題、編程題、機器學習&數據挖掘問題、解決方案類題目。微信

 

筆試&面試

 

美團公司-貓眼電影部門架構

 

美團在2015年8月初開始接收內推。貓眼電影今年剛單獨拆分出來,部門內缺乏算法工程師負責機器學習類的工做,因此面試不難,你懂模型、能搞業務就沒問題,編程題簡單。機器學習

 

阿里螞蟻金服-安全&服務與數據事業羣-人工智能部分佈式

 

阿里集團2014年上市,將包括支付寶在內的金融業務剝離單獨成立爲螞蟻金服。人工智能部剛成立,戰略定位頗似螞蟻的數據中樞,用於爲各個部門產出數據智能。我由於參加阿里巴巴天池平臺的移動推薦競賽得到亞軍,有專場面試的機會。函數

 

在專場面試中表現神勇,連面4面+CTO面+HR總監面,斬得阿里星Offer。第一、2面是後來的主管,在聊完移動推薦和其餘幾個比賽後出了2道業務場景題-商品性價比和排序指望題,題目羅列在文章最後一部分。

 

第1道題當場就給出瞭解決方案,二分類機器學習問題。第2道題,試過多種方法,和一個ACM Final朋友想了個DP解法,有多個複雜的動態轉移方程,這個方案優勢是時間複雜度低,能精確給出答案,但空間複雜度高,只針對選擇排序,後來我將這個指望看成1個因變量,將問題轉化爲迴歸問題來求解,各類思路我給出了1份10多頁的報告闡述。

 

面試官應該是被這10頁報告驚呆了就把我面試等級評爲A+,也就開始了阿里星的面試流程。第三、4面是交叉面,面試官是P10和P11的HR和部門經理漆遠教授。第五、6面是現場面試,面試官是CTO魯肅和HR總監。

 

最後4面都是綜合面試,簡歷上往深度裏面,技術上會根據針對性地出題,同時會給出業務類的題目。阿里的面試等級爲B+,A-,A,A+,A+能夠被面試官推到CTO處進行交叉面,面過了就是阿里星。

 

京東-數字營銷業務部

 

京東8月底開始內推。數字營銷業務部2014年成立,一年實現100多億的營收,賺了大錢,公司所以開始重視技術。

 

在NLP Job上看到相關內推,順手發了封郵件,第2周的週一就被安排面試,面完2輪面試官給了special offer面試機會。最終的面試流程是2輪技術面+1輪HR面+1輪交叉面+1輪VP面,按照校招宣講的說法這個是京東Star的流程。

 

騰訊-TEG

 

7月底到阿根廷參加IJCAI會議時,碰到TEG的部門老大,在微信上把簡歷給了他。但部門老大天然不把這種校招內推的事放心上,到了9月初才被安排面試。面了2輪,算法題比較簡單,但要求bug free,其餘時間都在聊模型、數據挖掘比賽、實習項目。第二輪面試聊了好久,比較有意思,面試官給我分析了我拿到和可能拿到的offer。

 

今日頭條-推薦組

 

今日頭條算是一家國內少有的技術驅動的公司,目前是C輪。頭條的筆試出的比較有水平,因此會比較看重筆試。我在面頭條時心態很差,先是拒絕參加筆試,然後以比較高的姿態和HR、面試官溝通。因此頭條的面試在第三輪時就中斷了。頭條面試的編程題不難,但對模型、推薦系統、項目線上經驗等考察得比較深刻。

 

Growing IO-機器學習組

 

Growing IO是原Linked In商務分析部門總監張溪夢先生回國創立以提供數據分析爲主,一鍵埋點爲技術壁壘的Start up公司,目前仍在天使輪,進去的話工號排在十幾。面了5面,部門leader2面+交叉面1面+co-founder面+CEO面。面試是按照社招的標準走的,leader面對機器學習考察得比較全面、深刻,其餘面就是聊聊天,畫畫餅。團隊裏都是比較資深的工程師,但機器學習業務很少。

 

微軟-Ads

 

2015年7月開始在微軟小冰組實習,9月中旬開始轉正面試,轉到Ads部門。微軟的轉正面試是2輪技術面+1輪AA面,2輪技術面1輪positive就能夠AA面。若是非實習生則須要2輪技術面都positive。另外,微軟有預科生計劃,轉正只須要presentation,無需面試。轉正面試的編程題相對較難,對模型、項目的考察較爲深刻。

 

網易遊戲、Linkdln中國

 

在9月中和10月初參加了這2個公司的筆試,2個公司的筆試都比較切合業務,與SQL語句相關。網易的筆試作了340分,但沒被通知面試LinkedIn中國的筆試接近滿分,但已經10月多,已經開始參加數據挖掘競賽,沒什麼面試狀態就沒去面試。

 

經驗心得

 

1.國內互聯網公司和國外FLAGS的面試有很大不一樣,前者重視項目、實習經驗、專業積累,後者看重的是你聰不聰明與編程題刷得多很少。在求職開始的時候內心得有個譜,合理分配時間、精力,並理性看待本身掛了筆試或面試。

 

2.簡歷講究簡單粗暴有逼格,簡歷包含聯繫方式、教育背景、實習經歷、項目介紹、牛逼的榮譽、崗位相關的技能就好,謂之簡單粗暴,有逼格則指的是實習、項目多用數字量化描述,省去敘事的過程,結果導向。還有一點經驗,能夠適當裝逼,但不能裝逼得超過可掌控範圍。

 

3.投簡歷的時候,多走內推渠道,省去大部分筆試或者電話面試,不吃力又討好。內推渠道有如下幾種,我按照靠譜程度排個序:1) 總監如下的內部技術員工 2) HR 3)總監以上的高管 4)北郵人論壇 5)Linked In 6)知乎 7)NLP job 8)微信公衆號。1)和2)是比較靠譜的,3)~7)只能做爲備胎。還有一個非主流但頗有效的捷徑是參加企業舉辦的比賽並取得好名次。

 

4.面試時要抓住提問環節問一些實質性的問題,好比具體的技術問題、部門組織架構、部門戰略地位、之後的工做團隊、對我的的定位、KPI怎樣給出等,尤以部門組織架構、戰略地位、團隊這類大又可說的問題最佳。京東面試官給我講了百度架構部門的痛點,在以後的面試中我就常常和麪試官聊關於架構部門和業務部門的話題,學到不少,大局觀也慢慢改善。

 

5.在精力容許的狀況下多面,多拿offer,一方面漲見識、談資,一方面在談理想公司的offer時能爭取到更好的薪資待遇。

 

題目彙總

 

筆試題

 

在互聯網分析中,一般會關注用戶的【第N日激活率】來衡量用戶質量。用戶的第N日激活指的是用戶在註冊的第N天登陸網站或App,即算爲該用戶的第N日激活。第N日激活率指的是某日註冊用戶在第N天激活的數量除以該日全部註冊用戶數量。

 

「赤兔」是領英中國針對中國職場人士推出的一款本土化的社交應用。若是你是領英中國的數據分析師,你會從哪些方面和維度來設計各項指標,給產品的設計和運營提供數據上的支持?請給出具體的維度和指標,並說明緣由。

 

網易遊戲的一道筆試題是給定一條包含3個join的SQL語句,要求寫代碼模擬實現SQL的功能。

 

編程題最少時間複雜度求數組中第k大的數,寫code去除字符串S1中的字符使得最終的字符串S2不包含’ab’和’c’,寫code長度爲N的序列Sequence=abc….Z,問有多少不一樣的二叉樹形態中序遍歷是這個,寫遞推公式給定整數n和m,問能不能找出整數x,使得x之後的全部整數均可以由整數n和m組合而成中序遍歷二叉樹,利用O(1)空間統計遍歷的每一個節點的層次,寫bug free的code排序二叉樹轉雙向鏈表一個運算序列只有+、*、數字,計算運算序列的結果.

機器學習&數據挖掘問題L1和L2正則項 >> 它們間的比較各個模型的Loss function,牛頓學習法、SGD如何訓練介紹LR、RF、GBDT ,分析它們的優缺點,是否寫過它們的分佈式代碼介紹SVD、SVD++是否瞭解線性加權、bagging、boosting、cascade等模型融合方式推薦系統的冷啓動問題如何解決是否瞭解A/B Test以及A/B Test結果的置信度特徵工程經驗是否瞭解mutual infomation、chi-square、LR先後向、樹模型等特徵選擇方式

 

解決方案類題目爲今日頭條設計一個熱門評論系統,支持實時更新給定淘寶上同類目同價格範圍的兩個商品A和B,如何利用淘寶已有的用戶、商品數據、搜索數據、評論數據、用戶行爲數據等全部能拿到的數據進行建模,判斷A和B統計平均性價比高低。統計平均性價比的衡量標準是大量曝光,購買者多則高。有n個elements和1個Compare(A, B)函數,用Compare函數做爲排序算法中的比較算子給elements排序。Compare函數有p的可能比較錯。排序完取Top m個元素,原本就在Top m並被正確分在Top m的元素個數是x。問x的數學指望。如何預測雙十一支付寶的負載峯值。

相關文章
相關標籤/搜索