推薦那麼準,除了模型,還有什麼。。。

最近v2ex論壇上出現一篇很熱門的帖子《QQ正在嘗試讀取你的瀏覽記錄》,題目很聳動,結果也很使人吃驚。
簡要介紹一下事情的前因後果,樓主反映火絨殺毒軟件提示QQ正在觸發一些規則,QQ嘗試讀取用戶的AppData\Local\Google\Chrome\User Data\Default\History等目錄,目錄中的信息爲用戶瀏覽器歷史記錄。有點東西,隨後看雪平臺的安全大佬對行爲進行了逆向分析([原創]關於QQ讀取Chrome歷史記錄的澄清),其先讀取各類 User Data\Default\History 文件,讀到了就複製到Temp目錄下的temphis.db。而後再用SQLite讀取數據庫,而後「select url from urls」,獲取到用戶的歷史信息域名,至於獲取這些域名信息後面的操做已經能夠猜到了!
結論,QQ並非特地讀取Chrome的歷史記錄的,而是會試圖讀取電腦裏全部谷歌系瀏覽器的歷史記錄並提取連接,確認會中招的瀏覽器包括但不限於Chrome、Chromium、360極速、360安全、獵豹、2345等瀏覽器。
大部分的瀏覽器都會中招,QQ就這麼垂手可得地扒掉了瀏覽器的「底褲」。
對於後面的結果我不太驚訝,我吃驚於爲什麼手段如此簡單。
過去常常有人發出「手機竊據說話、聊天信息致使app推薦如此之準」的疑惑,做爲一名算法工程師,我對於推薦的精準一點都不意外,由於基於用戶的大量瀏覽記錄、留存於app上的基礎信息和目前所在環境信息,這些大量的用戶信息在模型的「召回-》精排-》粗排」事後給用戶推薦出感興趣的音樂、視頻、新聞並非一件什麼困難的事情。
可是,數據的獲取細節,咱們可能也不太瞭解。對於數據來源,我之前的猜測是用戶在app上的點擊埋點信息以及集團下面的兄弟企業間的信息共享就能夠達到我在百度搜索了團建遊戲,微信朋友圈就有望京小腰的廣告推薦。
只要友商夠多,收購的小弟們夠多,這種作法理論上是行得通的,也是有效的。可是這種模式至關受限,想讓百度、阿里、騰訊進行這種準實時的數據合做至關之難。並且,在技術層面想達到服務間的數據及時共享也得耗費大量人力財力。
直接扒瀏覽器文件夾,相較於個人猜測可謂是神之一手,不用商務去對接「友商」,不用產品去互啃對方文檔,不用技術加班996,只用把文件夾複製一份就搞定,妙!
不過,目前的一些信息也只是兩位熱心市民的自助探索,到底騰訊對這一步技術操做如何解釋,我也至關好奇(吃瓜
最後,提醒各位一句,互聯網上無隱私,保護好本身,你偷偷看的東西,還有一羣人在幫你分析=。=
 
插圖來源:帆咔嚓@FanKetchup
 
微信公衆號:正版喬
相關文章
相關標籤/搜索