機器學習在馬蜂窩酒店聚合中的應用初探

時間 2020-01-26

原文原文鏈接

出門旅行，訂酒店是必不可少的一個環節。住得乾淨、舒心對於每一個出門在外的人來講都很是重要。算法

在線預訂酒店讓這件事更加方便。當用戶在馬蜂窩打開一家選中的酒店時，不一樣供應商提供的預訂信息會造成一個聚合列表準確地展現給用戶。這樣作首先避免一樣的信息屢次展現給用戶影響體驗，更重要的是幫助用戶進行全網酒店實時比價，快速找到性價比最高的供應商，完成消費決策。機器學習

酒店聚合能力的強弱，決定着用戶預訂酒店時可選價格的「厚度」，進而影響用戶個性化、多元化的預訂體驗。爲了使酒店聚合更加實時、準確、高效，如今馬蜂窩酒店業務中近 80% 的聚合任務都是由機器自動完成。本文將詳細闡述酒店聚合是什麼，以及時下熱門的機器學習技術在酒店聚合中是如何應用的。學習

Part.1 應用場景和挑戰

1.酒店聚合的應用場景

馬蜂窩酒旅平臺接入了大量的供應商，不一樣供應商會提供不少相同的酒店，但對同一酒店的描述可能會存在差別，好比：測試

酒店聚合要作的，就是將這些來自不一樣供應商的酒店信息聚合在一塊兒集中展現給用戶，爲用戶提供一站式實時比價預訂服務：優化

下圖爲馬蜂窩對不一樣供應商的酒店進行聚合後的展現，不一樣供應商的報價一目瞭然，用戶進行消費決策更加高效、便捷。spa

2.挑戰3d

(1) 準確性blog

上文說過，不一樣供應商對於同一酒店的描述可能存在誤差。若是聚合出現錯誤，就會致使用戶在 App 中看到的酒店不是實際想要預訂的：圖片

在上圖中，用戶在 App 中但願打開的是「精途酒店」，但系統可能爲用戶訂到了供應商 E 提供的「精品酒店」，對於這類聚合錯誤的酒店咱們稱之爲「AB 店」。能夠想象，當到店後卻發現沒有訂單，這無疑會給用戶體驗形成災難性的影響。內存

(2) 實時性

解決上述問題，最直接的方式就是所有采起人工聚合。人工聚合能夠保證高準確率，在供應商和酒店數據量還不是那麼大的時候是可行的。

但馬蜂窩對接的是全網供應商的酒店資源。採用人工的方式聚合處理得會很是慢，一來會形成一些酒店資源沒有聚合，沒法爲用戶展現豐富的預訂信息；二是若是價格出現波動，沒法爲用戶及時提供當前報價。並且還會耗費大量的人力資源。

酒店聚合的重要性顯而易見。但隨着業務的發展，接入的酒店數據快速增加，愈來愈多的技術難點和挑戰接踵而來。

Part.2 初期方案：餘弦類似度算法

初期咱們基於餘弦類似度算法進行酒店聚合處理，以期下降人工成本，提升聚合效率。

一般狀況下，有了名稱、地址、座標這些信息，咱們就能對一家酒店進行惟一肯定。固然，最容易想到的技術方案就是經過比對兩家酒店的名稱、地址、距離來判斷是否相同。

基於以上分析，咱們第一版技術方案的聚合流程爲：

輸入待聚合酒店 A；
ES 搜索與 A 酒店相距 5km 範圍內類似度最高的 N 家線上酒店；
N 家酒店與 A 酒店分別開始進行兩兩比對；
酒店兩兩計算總體名稱餘弦類似度、總體地址餘弦類似度、距離；
經過人工制定類似度、距離的閾值來得出酒店是否相同的結論。

總體流程示意圖以下：

「酒店聚合流程 V1」上線後，咱們驗證了這個方案是可行的。它最大的優勢就是簡單，技術實現、維護成本很低，同時機器也能自動處理部分酒店聚合任務，相比徹底人工處理更加高效及時。

但也正是由於這個方案太簡單了，問題也一樣明顯，咱們來看下面的例子 (圖中數據虛構，僅爲方便舉例)：

相信咱們每一個人均可以很快判斷出這是兩家不一樣的酒店。可是當機器進行總體的類似度計算時，獲得的數值並不低：

爲了下降偏差率，咱們須要將類似度比對的閾值提高至一個較高的指標範圍內，所以大量的類似酒店都不會自動聚合，仍須要人工處理。

最後，此版方案機器能自動處理的部分只佔到約 30%，剩餘 70% 仍須要人工處理；且機器自動聚合準確率約爲 95%，也就是有 5% 的機率會產生 AB 店，用戶到店無單，入住體驗很是很差。

因而，伴隨着機器學習的興起，咱們開始了將機器學習技術應用於酒店聚合中的探索之旅，來解決實時性和準確性這對矛盾。

Part.3 機器學習在酒店聚合中的應用

下面我將結合酒店聚合業務場景，分別從機器學習中的分詞處理、特徵構建、算法選擇、模型訓練迭代、模型效果來一一介紹。

3.1 分詞處理

以前的方案經過比對「總體名稱、地址」獲取類似度，粒度太粗。

分詞是指對酒店名稱、地址等進行文本切割，將總體的字符串分爲結構化的數據，目的是解決名稱、地址總體比對粒度太粗的問題，同時也爲後面構建特徵向量作準備。

3.1.1 分詞詞典

在聊具體的名稱、地址分詞以前，咱們先來聊一下分詞詞典的構建。現有分詞技術通常都基於詞典進行分詞，詞典是否豐富、準確，每每決定了分詞結果的好壞。

在對酒店的名稱分詞時，咱們須要使用到酒店品牌、酒店類型詞典，若是純靠人工維護的話，須要耗費大量的人力，且效率較低，很難維護出一套豐富的詞典。

在這裏咱們使用統計的思想，採用機器+人工的方式來快速維護分詞詞典：

隨機選取 100000+酒店，獲取其名稱數據；
對名稱從後往前、從前日後依次逐級切割；
每一次切割獲取切割詞且切割詞的出現頻率+1；
出現頻率較高的詞，每每就是酒店品牌詞或類型詞。

上表中示意的是出現頻率較高的詞，獲得這些詞後再通過人工簡單篩查，很快就能構建出酒店品牌、酒店類型的分詞詞典。

3.1.2 名稱分詞

想象一下人是如何比對兩家酒店名稱的？好比：

A：7 天酒店 (酒仙橋店)
B：如家酒店 (望京店)

首先，由於經驗知識的存在，人會不自覺地進行「先分詞後對比」的判斷過程，即：

7 天--->如家
酒店--->酒店
酒仙橋店--->望京店

因此要想對比準確，咱們得按照人的思惟進行分詞。通過對大量酒店名稱進行人工模擬分詞，咱們對酒店名稱分爲以下結構化字段：

着重說下「類型前 2 字」這個字段。假如咱們須要對以下 2 家酒店名稱進行分詞：

酒店 1：龍門南崑山碧桂園紫來龍庭溫泉度假別墅
酒店 2：龍門南崑山碧桂園瀚名居溫泉度假別墅

分詞效果以下：

咱們看到分詞後各個字段類似度都很高。但類型前 2 字分別爲：

酒店 1 類型前 2 字：龍庭
酒店 2 類型前 2 字：名居

這種狀況下此字段 (類型前 2 字) 具備極高的區分度，所以能夠做爲一個很高效的對比特徵。

3.1.3 地址分詞

一樣，模擬人的思惟進行地址分詞，使之地址的比對粒度更細更具體。具體分詞方式見下圖：

下面是具體的分詞效果展現以下：

小結

分詞解決了對比粒度太粗的缺點，如今咱們大約有了 20 個對比維度。但對比規則、閾值怎麼肯定呢？

人工制定規則、閾值存在不少缺點，好比：

規則多變。20 個對比維度進行組合會出現 N 個規則，人工不可能所有覆蓋這些規則；
人工制定閾值容易受「經驗主義」先導，容易出現誤判。

因此，對比維度雖然豐富了，但規則制定的難度相對來講提高了 N 個數量級。機器學習的出現，正好能夠彌補這個缺點。機器學習經過大量訓練數據，從而學習到多變的規則，有效解決人基本沒法完成的任務。

下面咱們來詳細看下特徵構建以及機器學習的過程。

3.2 特徵構建

咱們花了很大的力氣來模擬人的思惟進行分詞，其實也是爲構建特徵向量作準備。

特徵構建的過程其實也是模擬人思惟的一個過程，目的是針對分詞的結構化數據進行兩兩比對，將比對結果數字化以構造特徵向量，爲機器學習作準備。

對於不一樣供應商，咱們肯定能拿到的數據主要包括酒店名稱、地址、座標經緯度，可能得到的數據還包括電話和郵箱。

通過一系列數據調研，最終肯定可用的數據爲名稱、地址、電話，主要是：由於

部分供應商經緯度座標系有問題，精準度不高，所以咱們暫不使用，但待聚合酒店距離限制在 5km 範圍內；
郵箱覆蓋率較低，暫不使用。

要注意的是，名稱、地址拓展對比維度主要基於其分詞結果，但電話數據加入對比的話首先要進行電話數據格式的清洗。

最終肯定的特徵向量大體以下，由於類似度算法比較簡單，這裏再也不贅述：

3.3 算法選擇：決策樹

判斷酒店是否相同，很明顯這是有監督的二分類問題，判斷標準爲：

有人工標註的訓練集、驗證集、測試集;
輸入兩家酒店，模型返回的結果只分爲「相同」或「不一樣」兩類狀況。

通過對多個現有成熟算法的對比，咱們最終選擇了決策樹，核心思想是根據在不一樣 Feature 上的劃分，最終獲得決策樹。每一次劃分都向減少信息熵的方向進行，從而作到每一次劃分都減小一次不肯定性。這裏摘錄一張圖片，方便你們理解：

（圖源：《機器學習西瓜書》）

3.3.1 Ada Boosting OR Gradient Boosting

具體的算法咱們選擇的是 Boosting。「三個臭皮匠，頂過諸葛亮」這句話是對 Boosting 很好的描述。Boosting 相似於專家會診，一我的決策可能會有不肯定性，可能會失誤，但一羣人最終決策產生的偏差一般就會很是小。

Boosting 通常以樹模型做爲基礎，其分類目前主要爲 Ada Boosting、Gradient Boosting。Ada Boosting初次得出來一個模型，存在沒法擬合的點，而後對沒法擬合的點提升權重，依次獲得多個模型。得出來的多個模型，在預測的時候進行投票選擇。以下圖所示：

Gradient Boosting 則是經過對前一個模型產生的錯誤由後一個模型去擬合，對於後一個模型產生的錯誤再由後面一個模型去擬合…而後依次疊加這些模型：

通常來講，Gradient Boosting 在工業界使用的更普遍，咱們也以 Gradient Boosting 做爲基礎。

3.3.2 XGBoost OR LightGBM

XGBoost、LightGBM 都是 Gradient Boosting 的一種高效系統實現。

咱們分別從內存佔用、準確率、訓練耗時方面進行了對比，LightGBM 內存佔用下降了不少，準確率方面二者基本一致，但訓練耗時卻也下降了不少。

內存佔用對比：

準確率對比：

訓練耗時對比：

(圖源：微軟亞洲研究院）

基於以上對比數據參考，爲了模型快速迭代訓練，咱們最終選擇了 LightGBM。

3.4 模型訓練迭代

因爲使用 LightGBM，訓練耗時大大縮小，因此咱們能夠進行快速的迭代。

模型訓練主要關注兩方面內容：

訓練結果分析
模型超參調節

3.4.1 訓練結果分析

訓練結果可能一開始差強人意，沒有達到理想的效果，這時須要咱們仔細分析什麼緣由致使的這個結果，是特徵向量的問題？仍是類似度計算的問題？仍是算法的問題？具體緣由具體分析，但總歸會慢慢達到理想的結果。

3.4.2 模型超參調節

這裏主要介紹一些超參數調節的經驗。首先大體說一下比較重要的參數：

(1) maxdepth 與 numleaves

maxdepth 與 numleaves 是提升精度以及防止過擬合的重要參數：

maxdepth : 顧名思義爲「樹的深度」，過大可能致使過擬合
numleaves 一棵樹的葉子數。LightGBM 使用的是 leaf-wise 算法，此參數是控制樹模型複雜度的主要參數

(2) feature_fraction 與 bagging_fraction

feature_fraction 與 bagging_fraction 能夠防止過擬合以及提升訓練速度：

feature_fraction :隨機選擇部分特徵 (0<feature_fraction <1)
bagging_fraction 隨機選擇部分數據 (0<bagging_fraction<1)

(3) lambda_l1 與 lambda_l2

lambda_l1 與 lambda_l2 都是正則化項，能夠有效防止過擬合。

lambda_l1 :L1 正則化項
lambda_l2 :L2 正則化項

3.5 模型效果

通過多輪迭代、優化、驗證，目前咱們的酒店聚合模型已趨於穩定。

對方案效果的評估一般是憑藉「準確率」與「召回率」兩個指標。但酒店聚合業務場景下，須要首先保證絕對高的準確率(聚合錯誤產生 AB 店影響用戶入住)，而後纔是較高的召回率。

通過多輪驗證，目前模型的準確率能夠達到 99.92% 以上，召回率也達到了 85.62% 以上：

能夠看到準確率已經達到一個比較高的水準。但爲保險起見，聚合完成後咱們還會根據酒店名稱、地址、座標、設施、類型等不一樣維度創建一套二次校驗的規則；同時對於部分當天預訂當天入住的訂單，咱們還會介入人工進行實時的校驗，來進一步控制 AB 店出現的風險。

3.6 方案總結

總體方案介紹完後，咱們將基於機器學習的酒店聚合流程大體示意爲下圖：

通過上面的探索，咱們大體理解了：

解決方案都是一個慢慢演進的過程，當發現知足不了需求的時候就會進行迭代；
分詞解決了對比粒度太粗的缺點，模擬人的思惟進行斷句分詞；
機器學習能夠獲得複雜的規則，經過大量訓練數據解決人沒法完成的任務。

Part 4 寫在最後

新技術的探索充滿挑戰也頗有意義。將來咱們會進一步迭代優化，高效完成酒店的聚合，保證信息的準確性和及時性，提高用戶的預訂體驗，好比：

進行不一樣供應商國內酒店資源的座標系統一。座標對於酒店聚合是很重要的 Feature，相信座標系統一後，酒店聚合的準確率、召回率會進一步提升。
打通風控與聚合的閉環。風控與聚合創建實時雙向數據通道，從而進一步提升兩個服務的基礎能力。

上述主要講的是國內酒店聚合的演進方案，對於「國外酒店」數據的機器聚合，方法其實又很不一樣，好比國外酒店名稱、地址如何分詞，詞形還原與詞幹提取怎麼作等，咱們在這方面有相應的探索和實戰，整體效果甚至優於國內酒店的聚合，後續咱們也會經過文章和你們分享，但願感興趣的同窗持續關注。

本文做者：劉書超，交易中心-酒店搜索研發工程師；賀夏龍、康文雲，智能中臺-內容挖掘工程師。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。