人地關係的家和公司挖掘,通過三輪迭代,融合了AMap和開放平臺用戶數據,挖掘出來3.32億名用戶的常駐地,家和公司(截至2015-05-01)。其中針對amap日活用戶而言,家的整體覆蓋率達到77.32%,公司的整體覆蓋率達到80.17%。
咱們採用了兩份不一樣樣本集來對挖掘結果校驗,交通訂閱樣本共計5269條,家準確率爲89.31%,公司準確率79.18%。公司同事反饋樣本共計90條,家和公司的準確率均爲94.44%。目前挖掘結果基本達到年前所設定的準確率80%,覆蓋率50%的目標,能夠投入使用。
經過追蹤樣本集,目前存在IOS平臺準確率和覆蓋率都偏低,公司準確率相對偏低兩個問題,會經過進一步升級挖掘算法,以及推動開放平臺的IOS SDK日誌升級和融合,甚至將來考慮融合UC或者手淘IOS平臺定位日誌,來解決這些問題。算法
人地關係挖掘數據來源包括Amap的AOS層全部日誌,以及開放平臺定位SDK日誌。經過數據融合、預處理,每日處理日誌條數約計50~60億條。
因爲開放平臺REST 服務日誌,缺少包括用戶標識號(idfa),定位經緯度等重要信息,未能參與挖掘計算。將來融入該部分日誌,可以必定程度上補充目前iOS平臺用戶位置不足。五月中旬,咱們會發起開放平臺的日誌規範討論,但願可以推進開放平臺SDK和服務端可以帶回更多關鍵字段數據。app
路況訂閱樣本爲了儘可能保證交通訂閱的起始地和目的地與用戶真實的家和公司一致,對交通訂閱數據採用瞭如下兩條規則,篩選出準確度較高的數據集,共計5269條。(採用了強篩選規則)1)只選擇訂閱兩條路線的用戶,並篩選出起點爲「家」、終點爲「公司」的訂閱數據2)起點落在編碼爲3011的樓塊中,終點落在非3011的其餘居民地及設施中。
用戶反饋樣本經過提供可視化網站的形式,收集了高德地圖內部員工90條家和公司的反饋信息。網站
校驗樣本集的數據都是採用的火星座標系(GCJ-02),挖掘結果是採用的標準GPS座標,採用WGS84座標系。二者均未指定橢球體。GCJ-02本質加密是超越二項式,沒法反解,只能二分法逼近。在本次校驗中,採用通用的二分法逼近算法,通過驗證顯示,GCJ02到WGS84的座標轉換的偏差不超過3m。在此應用場景上使用,座標轉換所損失的精度處於容忍範圍內。所以,樣本集和挖掘結果的距離量測,是在WGS84座標系下計算。編碼
本次校驗採用大地距離(球面距離),採用Vincenty算法。經過計算挖掘結果和樣本集的WGS84座標系下的大地距離。在路況訂閱樣本下,因爲路況訂閱數據,用戶在選擇家或者公司操做,通常都是選小區的POI,和用戶實際所在樓塊自己有必定距離,咱們採用計算二者距離<1000m,則斷定爲準確。在用戶反饋樣本下,公司內部用戶精確地將本身的家和公司位置定位到本身所在的樓上,咱們採用計算二者距離<50m,則斷定爲準確。加密
整體:家 準確率爲89.13%,公司 準確率爲79.18%。家 覆蓋率爲77.32%,公司的覆蓋率爲80.17%。
分平臺:iOS : 家 準確率 86.96%,公司 準確率 68.89%。家 覆蓋率 31.39%,公司 覆蓋率 27.43%。Android:家 準確率 89.96%, 公司 準確率 79.18%。家 覆蓋率 80.61%, 公司 覆蓋率 81.55%。日誌
能夠看到iOS平臺的準確率和覆蓋率都相對偏低,公司的準確率相對偏低。經過對具體Case(大約100個)追蹤,總結緣由以下:
一. AMap數據覆蓋不足。AMap使用場景更多傾向未知地點,使用頻率偏低。因爲開放平臺iOS相關SDK並無帶回idfa,用戶經緯度等數據。改進:(1) 協調開放平臺iOS SDK PM和REST 服務RD,帶回目前日誌所缺失參數。(2) 但願PM可以協調UC,支付寶,手淘等集團內部的頭部BU,受權融合使用iOS平臺用戶定位數據。指望收益:iOS準確率總體提高到80%以上,覆蓋率總體提高到50%以上。
二. 公司語義更普遍。咱們經過跟蹤具體的Case,發現大量和汽車相關的職業的用戶(如出租車司機,專車司機)並不存在傳統含義的公司,並無固定的辦公地址。公司的挖掘相對家的語義更加普遍,涉及到不一樣社會階層,公司的意義不甚一致(學生,自由工做者等),致使了公司挖掘準確率相對較低。改進:(1) 進行新一輪算法迭代,提高公司的語義判斷準確率。(2) 融合其餘數據維度來加強公司語義判斷準確率。指望收益: 公司準確率總體提高到和家持平,即90%左右。支付寶
整體:家和公司準確率均爲94.44%。因爲樣本集比較小,就不分平臺分析,直接針對錯誤的Case進行分析。一. 兩個iOS用戶家和公司挖掘都出錯。都是屬於挖掘得分較低的用戶,也就是說數據覆蓋不足,可是算法自己參數也須要進行必定調整。改進:調整算法參數,觀察不一樣參數的挖掘結果。指望收益:準確率會有必定提高,可是覆蓋率會相應降低。具體的比例很難預估。
二. 剩餘主要是家或者公司挖掘出錯。屬於更新時間較早,也就是說搬家或者換公司,沒被探測出來。目前採用的選擇算法傾向於惰性,時間參數的衰減較慢,搬家或者換公司通常要一到兩個月才能更新位置。改進: 調整目前惰性算法,加大時間衰減權重。指望收益:能更快探測到用戶新家或公司,可是有可能帶來準確率的降低。產品
綜上所述,目前家和公司第一期的挖掘已經按時符合質量產出,下一期須要融合更多數據,進一步升級挖掘算法。從數據層面,保證挖掘的準確率和覆蓋率。下一步的工做,包括提供家和公司的數據服務,進一步深化人地關係的挖掘。主要包括,用戶常去區域,用戶軌跡等挖掘。同時,咱們會啓動ID Mapping 和 用戶標籤體系的構建,最終都採用標準的REST 服務提供,預期ID Mapping 會在六月中旬提供服務。用戶標籤體系則是長期工做,會在五月底提供部分標籤的數據服務。數據挖掘