Instagram 是如何利用AI深度學習進行內容推薦的(翻譯)


1.強如Instagram和Facebook,資源也是受限的
算法

與一些人傾向於按時間順序顯示摘要不一樣,「瀏覽」選項仍須要經過算法來驅動。可是理解圖片社交網絡上發生的事情並向人們推薦新內容是一個很是困難的過程。網絡

若是相關企業有充足的能力與時間,那麼他們可能會在解決此類問題上作出一些成果。但事實上,這些企業在短期內須要爲數億人提供服務,這意味着須要龐大的數據資源。機器學習

2.所有與帳戶有關,而與帖子自己無關ide

如此海量的信息發佈到Instagram上,單獨跟蹤並推薦每張照片幾乎是不可能作到的。與之相比,跟蹤做者賬戶顯然更簡單且更高效,由於同一個帳戶裏的內容一般具備共同性,或者有一個共同的話題,好比「旅遊」。學習

用戶喜歡某個帳號中的一條帖子並不必定意味着這位用戶會喜歡該帳號中的其餘內容,但這至少能夠代表用戶對該帳號的主題感興趣。圖片

3.複雜的用戶習慣完善了算法資源

值得注意的是,Instagram不只使用圖像功能來肯定哪些帳戶是按主題連接的,他們也會根據你的行爲進行判斷。it

例如,當你連續喜歡幾個帖子時,即便Instagram的算法看不太清楚,它們也更有可能以某種方式鏈接起來:class

若是一我的在同一會話中與一系列帳戶交互,那麼與來自各類Instagram帳戶的隨機帳戶序列相比,它更有可能具備主題一致性,這有助於識別局部類似的賬戶。神經網絡

人們只是傾向於以這種方式看待事物,從一個旅遊專題轉到另外一個,或者關注動物。全部這些信息都被算法吸取並檢查相關性。固然,像「少看這樣的帖子」和屏蔽帳號這樣的故意行爲也有很大的份量。

4.從「種子帳戶」到前25名

將幾十億個帖子壓縮到24個是至關困難的,可是你能夠經過將Explore標籤限制到與用戶已經喜歡或保存的帖子相關的帳戶,從而將問題縮小到可管理的範圍。這些被稱爲「種子帳戶」,由於在這個過程當中其餘的一切都是從它們中產生的。

想象一下,若是你知道有人喜歡某個特定的紅橙色大理石,你須要找到更多相似的。若是你只是把手伸進一袋彈珠裏,你不太可能很快找到一個。即便你把它們倒在地板上,你仍是得找一下子。可是若是你已經根據顏色來組織它們了,你所要作的就是找到它們喜歡的大理石的大體位置,幾乎能夠保證你會選出一個獲勝者。

機器學習模型經過給全部這些帳戶一個虛擬空間中的位置來實現這一點,兩個帳戶在虛擬空間中的距離越近,它們在局部上的距離就越近。

所以,把一個幾十億削減到一個幾百的真正困難的部分基本上已經經過帳戶分類的方式完成了。

從那時起,Instagram經過神經網絡進行三次傳遞,其複雜性不斷增長。

首先,稍微使人困惑的是接下來的兩個流程的更簡單的組合版本,將其從500個帳戶增長到150個帳戶。這有點奇怪,但請這樣想:這個神經網絡已經看到步驟2和步驟3屢次發生,而且對它們的做用有了很好的瞭解。有點像你看到餅乾作了足夠的次數,你能夠猜出一個食譜。您可能會接近,但也不想將其發佈給一億人。所以,此步驟能夠正確處理顯而易見的內容。

其次是一個計算成本低廉的神經網絡,它使用的信號比上面提到的簡單主題類似度更多。這就是你的我的喜愛發揮做用的地方,以及關於帳戶的更深層次的數據。固然,你喜歡旅行,但你更喜歡情侶旅行——上面的大理石分類算法對這兩種狀況都有幫助。其餘參數,好比一篇文章的受歡迎程度,或者它與其餘文章的不一樣之處,也會被計算在內。

第三種方法是上述方法的一個計算代價高昂的版本,它對這50個數據進行另外一次傳遞,並將其減半,基本上是經過仔細觀察並花時間將每一個數據點包含1000個數據點而不是100個數據點。

相關文章
相關標籤/搜索