5. 後記

介紹完了 DSSM 及其幾個變種,還要給讀者潑點冷水,DSSM 就必定適合全部的業務嗎?

這裏列出 DSSM 的 2 個缺點以供參考:

1. DSSM 是端到端的模型,雖然省去了人工特徵轉化、特徵工程和特徵組合,但端到端的模型有個問題就是效果不可控。對於一些要保證較高的準確率的場景,用有監督人工標註的 query 分類做爲打底,再結合無監督的 word2vec、LDA 等進行語義特徵的向量化,顯然比較可控(至少 query 分類的準確率能夠達到 95%以上)。

2. DSSM 是弱監督模型,由於引擎的點擊曝光日誌裏 Query 和 Title 的語義信息比較弱。舉個例子,搜索引擎第一頁的信息每每都是 Query 的包含匹配,筆者統計過,徹底的語義匹配只有不到 2%。這就意味着幾乎全部的標題裏都包含用戶 Query 裏的關鍵詞,而僅用點擊和曝光就能做爲正負樣例的判斷?顯然不太靠譜,由於大部分的用戶進行點擊時越靠前的點擊的機率越大,而引擎的排序又是由 pCTR、CVR、CPC 等多種因素決定的。從這種很是弱的信號裏提取出語義的類似性或者差異,那就須要有海量的訓練樣本。DSSM 論文中提到,實驗的訓練樣本超過 1 億。筆者和同事也親測過,用傳統 CTR 預估模型千萬級的樣本量來訓練,模型沒法收斂。但是這樣海量的訓練樣本,恐怕只有搜索引擎纔有吧?普通的搜索業務 query 有上千萬,可資源頂多只有幾百萬,像論文中說須要挑出點擊和曝光置信度比較高且資源熱度也比較高的做爲訓練樣本,這樣就過濾了 80%的長尾 query 和 Title 結果對,因此也只有搜索引擎纔有這樣的訓練語料了吧。另外一方面,超過 1 億的訓練樣本做爲輸入,用深度學習模型作訓練,須要大型的 GPU 集羣,這個對於不少業務來講也是不具有的條件。