2019年9月2日

前言

先說說Bigo這家公司,簡單來講是開始作海外社交和直播視頻相關業務的,而後被YY全資收購了。今天上午十點半面試的,開始讓用Zoom面試,結果出了點問題,改用了微信。面試

  • 2014年11月 BIGO於新加坡成立微信

  • 2016年3月 全球視頻直播社交平臺-BIGO LIVE上線函數

  • 2016年4月 BIGO LIVE榮登泰國地區APP排行榜首學習

  • 2017年7月 Likee(原LIKE短視頻)上線測試

  • 2017年11月 Likee(原LIKE短視頻)得到Google Play 2017三項殊榮優化

  • 2018年6月 BIGO完成D輪融資編碼

  • 2019年3月 BIGO被歡聚時代(YY)收購3d

  • 2019年5月 集團產品全球月活數超過4億,其中imo月活數達2.11億orm

面試

  • 自我介紹
  • 瞭解Transformer和Bert? 說一下Transformer的結構。而後就是Transformer的經典問題
  1. 爲何須要位置編碼

self-attention機制是一種詞袋(bag of words),不論看上去距離多遠的詞,在self-attention機制中都爲1。這樣的建模方式,實際上會丟失詞之間的相對距離關係。舉個例子就是,「牛 吃了 草」、「草 吃了 牛」,結果是同樣的。cdn

  1. 多頭注意力機制的好處

借鑑了CNN的多個卷積核的機制,原論文中表述是造成多個特徵子空間,每一個子空間學習不一樣的文本特徵

3. 縮放點積Attention的公式?爲何須要除以\sqrt{d_k}

高維向量相乘結果可能很大或者很小,容易處於softmax的的飽和區域,進行縮放後處於softmax的敏感區域,有利於梯度的傳播。

  • transformer的優化器?(這裏我感受他問錯了,應該是bert的)

剛開始沒懂,就說了Adam。而後他追問了Adam和Adgrad的區別。以及Adam用的學習率大小,過大太小會如何。最後說你見過先大後小的學習率嗎?我才搞明白他想問warmup。

  • 講一下對話系統的項目裏面的數據集是如何構建的,多任務是如何作的?
  • 講一下原始的pipeline模型是怎麼作的?意圖分類分了幾類?用的什麼模型?作了什麼改進?

SVM,追問了SVM如何用做多分類。SVM多分類使用的是多個二分類器組成的,能夠是1對其他(n個分類器),也能夠是1對1(n(n-1)/2個分類器)。 改進主要是針對樣本不均衡使用了focal loss,追問了focal loss的函數形式和做用。

  • 講一下模型壓縮工做。SVD是怎麼作的?

SVD是把矩陣分解成U\sigmaV三個矩陣,而後根據\sigma中的奇異值進行截斷,從而壓縮數據量。

  • 過擬合的方法

數據層面:增長數據,數據加強,模型層面:L1,L2正則化,Droupout,剪枝,以及模型集成,多任務學習等

  • 瞭解BN嗎 BN的公式 BN的滑動平均均值和方差

假設輸入服從高斯分佈對batch方向進行歸一化,而後再縮放。 訓練的時候使用訓練集batch的滑動平均,測試的時候固定均值和方差,使用訓練的滑動平均的結果進行預測。

  • 瞭解推薦系統模型嗎?有哪些?

我不是很懂推薦系統的,只說了基於SVD分解的協同過濾

  • 只想作NLP仍是作NLP相關的內容

NLP和推薦結合的內容

  • 反問
  1. 您是作什麼工做的?

推薦

  1. NLP崗位的內容有什麼?

把評論數據轉換爲特徵用於推薦

相關文章
相關標籤/搜索