先說說Bigo這家公司,簡單來講是開始作海外社交和直播視頻相關業務的,而後被YY全資收購了。今天上午十點半面試的,開始讓用Zoom面試,結果出了點問題,改用了微信。面試
2014年11月 BIGO於新加坡成立微信
2016年3月 全球視頻直播社交平臺-BIGO LIVE上線函數
2016年4月 BIGO LIVE榮登泰國地區APP排行榜首學習
2017年7月 Likee(原LIKE短視頻)上線測試
2017年11月 Likee(原LIKE短視頻)得到Google Play 2017三項殊榮優化
2018年6月 BIGO完成D輪融資編碼
2019年3月 BIGO被歡聚時代(YY)收購3d
2019年5月 集團產品全球月活數超過4億,其中imo月活數達2.11億orm
self-attention機制是一種詞袋(bag of words),不論看上去距離多遠的詞,在self-attention機制中都爲1。這樣的建模方式,實際上會丟失詞之間的相對距離關係。舉個例子就是,「牛 吃了 草」、「草 吃了 牛」,結果是同樣的。cdn
借鑑了CNN的多個卷積核的機制,原論文中表述是造成多個特徵子空間,每一個子空間學習不一樣的文本特徵
高維向量相乘結果可能很大或者很小,容易處於softmax的的飽和區域,進行縮放後處於softmax的敏感區域,有利於梯度的傳播。
剛開始沒懂,就說了Adam。而後他追問了Adam和Adgrad的區別。以及Adam用的學習率大小,過大太小會如何。最後說你見過先大後小的學習率嗎?我才搞明白他想問warmup。
SVM,追問了SVM如何用做多分類。SVM多分類使用的是多個二分類器組成的,能夠是1對其他(n個分類器),也能夠是1對1(n(n-1)/2個分類器)。 改進主要是針對樣本不均衡使用了focal loss,追問了focal loss的函數形式和做用。
SVD是把矩陣分解成、
、
三個矩陣,而後根據
中的奇異值進行截斷,從而壓縮數據量。
數據層面:增長數據,數據加強,模型層面:L1,L2正則化,Droupout,剪枝,以及模型集成,多任務學習等
假設輸入服從高斯分佈對batch方向進行歸一化,而後再縮放。 訓練的時候使用訓練集batch的滑動平均,測試的時候固定均值和方差,使用訓練的滑動平均的結果進行預測。
我不是很懂推薦系統的,只說了基於SVD分解的協同過濾
NLP和推薦結合的內容
推薦
把評論數據轉換爲特徵用於推薦