阿里巴巴大數據崗位電話面試:有傷痛纔有成長

阿里巴巴實習電話面試

面試時間:2018年4月2日14:00;
部門:風控+機器學習;(數據挖掘+業務分析專家);
面試持續時間:44分鐘;
面試結果:電話面試就掛掉了(心疼)前端


準備流程:面試

  • 根據前一次的談話判斷須要複習:機器學習算法+深度學習算法;
  • 瞭解阿里風控所作的事情;
  • 正常行爲+異常行爲的判別;

如下爲面試以前的知識點複習以及問題總結:
問題1:黑灰產業鏈的分類與防範模型
灰黑產業分類:算法

  • 技術灰黑產業:軟件、平臺、場所、聊天工具
  • 源頭性灰黑產業:惡意註冊、虛假認證、交易
  • 各種犯罪行爲:詐騙、盜號、炒信

防範模型構建:
數據類型:10年灰黑產業鏈的情報收集
過程:研究-->用戶行爲分析-->大數據模型-->一整套數據驅動的風控技術體系數組

問題2:B2C的推出目的?安全

  1. 得到完整的貿易信息,積累數據,爲後續信貸服務;
  2. 銀行線下風險團隊的強大,盡調和省察面面俱到,但這是靜態的,過後的,只反應一個或者多個時點的狀態(一年採集兩三次data)
  3. 只有動態的貿易流才反映實際風險狀態和風險變化趨勢。但動態分析更多地偏向於客戶需求分析,而不是風控。
  4. 銀行對風險的judgement始終是在前端,從客戶准入、授信額度的審批、具體放款條件的落實、貸款的訂價,都是爲了在房貸前就確保這筆業務不出問題。基於此,創建在歷史數據上的靜態分析模型是足夠可靠的。

問題3:支付寶如何依靠大數據作風險控制?網絡

  1. 通常基於大數原則,定規則,篩異常。
  2. 銀行:偏向於純風險控制,大額貸款,確保業務安全迅速的發展,無業務,不風控。
  3. 支付寶:偏向於客戶行爲&交易,小微金融,防範風險。

問題4:經濟、金融信用問題
去探索緣由,從機器學習的角度講,我須要找到影響目標的那些變量,因此老是從簡單的機器學習算法開始。複雜算法有黑箱,很難搞清楚predictors和target的因果關係。數據結構

問題5:爲何要用lasso
在多因子模型中,咱們須要對變量進行選擇。Lasso能夠將沒有做用的變量過濾掉,當調節參數的λ足夠大時,L1 懲罰項具備將其中某些係數的估計值強制設定爲0的做用。Lasso構建的關係是線性的,每一個選中的變量的係數具備意義,這些係數表明了變量與目標的變化率,比較直觀,一目瞭然。機器學習

問題6:數據分析方法?
關聯分析、分類分析、預測分析、時間序列分析、神經網絡分析等工具

問題7:阿里金融進行信用評級的數據來源
(支付交易數據):淘寶、天貓、支付寶
(銷售數據):賣家提供
(生活數據):銀行流水、信用卡還錢、新浪微博(社交信息)、水電繳納、結婚證學習

問題8: 數據多就是大數據?
「數據多」並非大數據,可以利用IT先進技術將碎片化的信息整合起來,才能真正造成有用的大數據。徵信的基本過程也是將分散於不一樣信貸機構看似用處不大的局部信息整合成爲完整描述消費者信用情況的全局信息。

問題9:基於機器學習的分析模型(10個)
AI+Model+Bigdata:還款意願模型、還款能力模型、身份驗證模型、欺詐模型、預付能力模型等
例子:
Step一、對每位信貸申請人的超過1萬條原始信息數據進行分析;
Step二、得出7萬個能夠對其行爲做出預測的指標;
Step三、可在5秒內所有完成(速度要求)

問題10:大數據公司的產品類別
下降金融信貸風險
幫助作決策判斷和市場營銷

問題11:ZestFinance對中國徵信業的啓示
一、 徵信勿以「懲罰性」爲目的。假定均爲「好人」,不設黑名單,進行有罪推理,雖然可能簡單有效,但徵信的做用不只是「懲戒失信」,更重要是褒揚誠信;
二、 定位於特定服務人羣:合理定位&深刻理解服務對象是關鍵;
三、 增強信用分析模型的開發:多角度學習的預測模型,及時更新,不斷細化;對Data的理解,消費者理解和數據挖掘技術的掌握在建模過程當中均不能省。

問題12:瞭解深度學習的算法麼?
複雜的算法,以及深度學習能夠抓住複雜的關係,咱們是能夠試試的,都是開源的算法,但更加劇要的事是理解應用背景,咱們纔能有足夠的知識去判斷什麼算法,對咱們手裏面的問題是最好的。

問題13:AI(DL)和ML(LR)在徵信大數據上的區別
DL的優點:

  1. 能夠經過複雜的推理,在大數據中找到不明顯的東西,而每每這些特殊的,或者個別的才最重要。LR過於教條,須要對數據強行結構化,容易消磨數據的真實性;
  2. DL在訓練時可以兼顧更多變量之間的交互狀況。LR更多考慮單個變量,但對借款人的可解釋性更強;

大數據+ML:利用大量用戶金融交易行爲類數據,經過機器學習方法,創建模型,預測用戶信用狀況,給出不一樣形式的反饋結果;

大數據+AI:
注:AI補充ML的不足,驅動徵信業的發展

  • DNN:深度訓練,分析用戶信貸類數據,分析多個變量之間的交互;
  • NLP:只能問答系統,只能機器人解決信貸者的疑問;
  • 知識圖譜:解決反欺詐,不一致驗證,團伙欺詐;
  • 集合學習:多個單一模型相互做用。重點找到:互補關係;

問題14:CNN(卷積神經網絡)RNN(循環神經網絡)DNN(深度神經網絡)
感知機:輸入層(特徵向量)-- 隱含層(多層感知機就是神經網絡)-- 輸出層;
注:層數多致使「梯度消失現象」
DNN:全局連接DNN(下層神經元與上次神經元均能連接)。致使:過分擬合,局部最優解,參數數量膨脹;
RNN:DNN沒法對時間序列上的變化進行建模,發展出了RNN;
CNN:不是上下層神經元均鏈接,經過卷積核做爲中介,下降參數個數;


(緊張,忐忑,這是第二次電話面試阿里)

(大概回顧面試中幾個大的問題)
1. 請你自我介紹一下(介紹的很沒有邏輯性,主要就說本身之前作的項目和如今要應聘的風控是相關的,因此本身很適合)
2. 你在大學讀的學校狀況比較複雜,能夠說一下狀況麼?(主題思想:本身爲了爭取機會,帶着目標去學習)
3. 介紹一下你作過的最有成就感的項目?(面試官很摳細節,而我本身浮於表面。把一個本身構造的公式忘掉了。在平時,描述項目的時候,用詞也不夠專業,沒有條理,致使項目闡述的也不是很清楚。平時就要培養描述項目的能力,學着本身問本身問題。)
4. 算法:有一個很大的數組,存的均爲整數,求N個最大值。給出算法以及時間複雜度?(個人回答比較蠢:冒泡排序?二叉樹?可是都被面試官否認了。他提示我快排、堆排序,可是我也沒有想到改進版)
5. 操做系統:死鎖的概念,以及如何避免:(我舉了一個例子,可是具體概念不清楚。可想而知,我真的是什麼都沒有複習。面試BAT這種技術公司,基礎學科的知識點,真的是要經過刷題來鞏固啊!!!!!!!!!)
6. 你還有什麼問題問我麼?(這個部門作風控主要作什麼方面?這個部門也不只僅作風控。咱們主要作兩個事情:一、智能化,創建深度模型,提升傳統模型效率;二、偏向於服務的風控,好比金融服務,花唄,借唄存在的信用風險)(那大家創建模型的時候會將兩個或者多個具備互補關係的模型,柔和在一塊兒完成一個目標麼?咱們在創建模型以前都已經有了很明確的目標,因此通常都不會湊合在一塊兒作。)


補充死鎖:
什麼是死鎖?
死鎖是指多個進程因競爭資源而形成的一種僵局(互相等待),若無外力做用,這些進程都將沒法向前推動。例如,在某一個計算機系統中只有一臺打印機和一臺輸入 設備,進程P1正佔用輸入設備,同時又提出使用打印機的請求,但此時打印機正被進程P2 所佔用,而P2在未釋放打印機以前,又提出請求使用正被P1佔用着的輸入設備。這樣兩個進程相互無休止地等待下去,均沒法繼續執行,此時兩個進程陷入死鎖狀態。

死鎖產生的緣由

  • 列表項目系統資源的競爭:系統資源的競爭致使系統資源不足,以及資源分配不當,致使死鎖。
  • 進程運行推動順序不合適:進程在運行過程當中,請求和釋放資源的順序不當,會致使死鎖。

產生死鎖的四個必要條件:

  • 互斥條件:一個資源每次只能被一個進程使用,即在一段時間內某 資源僅爲一個進程所佔有。此時如有其餘進程請求該資源,則請求進程只能等待。
  • 請求與保持條件:進程已經保持了至少一個資源,但又提出了新的資源請求,而該資源 已被其餘進程佔有,此時請求進程被阻塞,但對本身已得到的資源保持不放。
  • 不可剝奪條件:進程所得到的資源在未使用完畢以前,不能被其餘進程強行奪走,即只能 由得到該資源的進程本身來釋放(只能是主動釋放)。
  • 循環等待條件: 若干進程間造成首尾相接循環等待資源的關係
  • 注:這四個條件是死鎖的必要條件,只要系統發生死鎖,這些條件必然成立,而只要上述條件之一不知足,就不會發生死鎖。

死鎖避免的基本思想:
系統對進程發出每個系統可以知足的資源申請進行動態檢查,並根據檢查結果決定是否分配資源,若是分配後系統可能發生死鎖,則不予分配,不然予以分配。這是一種保證系統不進入死鎖狀態的動態策略。
理解了死鎖的緣由,尤爲是產生死鎖的四個必要條件,就能夠最大可能地避免、預防和解除死鎖。因此,在系統設計、進程調度等方面注意如何讓這四個必要條件不成立,如何肯定資源的合理分配算法,避免進程永久佔據系統資源。此外,也要防止進程在處於等待狀態的狀況下佔用資源。所以,對資源的分配要給予合理的規劃。

死鎖避免和死鎖預防的區別:
死鎖預防是設法至少破壞產生死鎖的四個必要條件之一,嚴格的防止死鎖的出現,而死鎖避免則不那麼嚴格的限制產生死鎖的必要條件的存在,由於即便死鎖的必要條件存在,也不必定發生死鎖。死鎖避免是在系統運行過程當中注意避免死鎖的最終發生。


反思

有幸知道了本身掛掉的緣由,第一反應就是:基礎知識沒有複習,本身作的項目也不瞭解,邏輯不夠清楚……而後開始自我否認。也許這就是找工做須要經歷的心理歷程吧:面試失敗-->自我否認(最痛苦,但卻最不該該消極對待)-->自我檢討-->再次面試……
感謝面試官,以及鼓勵個人人!加油!知己知彼,最難的是知己。別人願意真正指出你的缺點,而不是罵你,就應該感恩。自我改進。

面試反饋以下:

  • 基礎方面,問了關於數據結構和操做系統方面的基礎問題,回答很差。如TOP N問題,考慮用二叉樹來解決,在提示下都沒意識到堆排序和快排的改進版;操做系統死鎖以及如何防止,概念不清楚等等。(面試技術公司,必定要刷數據結構,操做系統一類的基礎題(好比在牛客上刷題),沒有準備好,就不要去面試。白白浪費機會。)
  • 項目方面,選最有成就感的項目來說解,整個項目講解不夠邏輯清楚,有點抓不住重點。另外她核心貢獻部分,好比指標方面的波動率等,細節回答不上來。(面試以前,準備好涉及到這個項目全部的基礎問題,技術細節,不要浮於表面)
  • 有一些數據處理方面的經驗,但在模型方面偏弱,屬於有點了解。(面試的是大數據建模崗位,可是對機器學習,深度學習等算法,不夠了解)
相關文章
相關標籤/搜索