【CSWS2014 Summer School】互聯網廣告中的匹配和排序算法-蔣龍(上)

Title:互聯網廣告中的匹配和排序算法html

蔣龍博士,通聯數據算法

Abstract:互聯網廣告是利用互聯網提供的基礎設施進行產品和服務營銷的一種新形式,具備比傳統廣告方式更精準,成本收益更透明的優點。互聯網廣告是當今衆多互聯網企業實現價值變現的最主要形式之一,能夠說,互聯網廣告產業是當今互聯網能蓬勃發展的重要動力。網絡

本次講座將首先對互聯網廣告產業作一個簡要的介紹,包括目前主流的幾種廣告模式,每種模式下主要的參與者及廣告形態和特色。接下來分析幾種主流廣告模式中應用到的匹配和排序技術,包括搜索廣告系統中的查詢匹配算法,定向廣告中的行爲定向和個性化推薦技術,以及基於反饋數據的點擊率預估系統。session

Bio: 蔣龍,畢業於北京大學,現任通聯數據首席數據科學家。曾任職於阿里巴巴集團,負責阿里媽媽事業部機器學習和排序,推薦和用戶模型,基礎算法和數據等團隊。加入阿里以前曾任職微軟亞洲研究院,從事天然語言處理、機器學習研究工做。主要感興趣的領域包括機器學習,天然語言處理,互聯網廣告,量化投資等。機器學習

PS:如下照片並不包含所有PPT內容,僅包含我的感興趣並認爲有價值的PPT。學習

其中涉及的內容仍是比較豐富的,可是不是十分詳細,不過,你們能夠從中瞭解一下工業界是如何解決一些實際問題的,同時可以瞭解一下咱們所學的算法、模型是如何在實際中應用的。網站

Fig1,介紹了廣告算法的基本策略,總結的很簡單的兩個步驟,也很容易理解。搜索引擎

Fig2,這幅圖主要介紹了在搜索引擎廣告系統(好比淘寶、京東、百度這種,你在搜索框輸入Query[查詢語句/詞條],系統顯示結果)中涉及的角色,下面我對其中幾個不易明白的內容進行解釋說明。spa

廣告主:「買詞」的意思就是購買關鍵詞,當用戶搜索該關鍵詞,那麼就會優先推薦競價高的廣告主的廣告;計算機網絡

    「爲點擊付費」就是說用戶只要點擊過廣告主的廣告,不管最終是否進行了交易,廣告主都要付給搜索引擎必定的費用;

搜索引擎:「Query分析」就是對用戶輸入的文本進行分析

    「展現搜索結果+廣告」也就是說既要保證用戶體驗,又要作到廣告推薦。

Fig3,GSP的意思就是,競價排行最高的廣告主,只須要支付競價排行第二的廣告主所提出的價格,好比之前會有這種狀況,A出了500W,B出了300W,當A得知本身最高的時候,會逐漸下降本身的出價,而GSP方法就能夠有效的避免這種麻煩的狀況出現。

其中有一個推廣質量,這個數值是爲了解決這種狀況,舉個比較極端的例子,廣告主A是汽車公司,廣告主B是服裝公司,雙方能夠購買適合本身領域的詞,可是有可能A購買了服裝領域的詞W而且競價比B高,這時候W在A領域的推廣質量定不如在B領域的推廣質量,所以在關鍵詞爲W的廣告排序的時候,不必定是A的在第一個,並且收費也會隨之進行相應調整。

Fig4,廣告主ROI:廣告主營銷投資回報;其餘內容,後邊會有詳細的介紹。

Fig5,針對用戶錯誤或者不許確的輸入,系統要有「自動糾錯」的功能;

Fig6,從圖中下方的圖片能夠看出「模糊匹配」的意思就是,用戶的輸入與廣告主購買的關鍵詞並非徹底同樣,可是確實指向同一物品,這時候就須要「推薦系統」來推測用戶想要什麼。

Fig7,從上邊的例子能夠看出,用戶輸入的字符串若是太長,那麼就要對其進行切分,找出中心詞,修飾詞,而後組成新的Query,再從系統中查詢。

Term重要度計算模型,也就是說怎麼計算中心詞。【★,重要度計算,在科研中常常會遇到】

類目熵的意思就是,阿里內部有本身手工構建的商品類目知識庫,根據這個知識庫來計算重要度(具體怎麼計算,沒有詳細說);

TF-IDF:詞頻-逆文檔頻率;

Fig8,這個的意思就是用戶輸入了一個Query,而後點擊了一個廣告,採集大量這種數據,就能夠構造「Query-廣告」的一個二部圖(從定義能夠很容易看懂這個圖的組成)

原理:(1)若是兩個Query鏈接到類似的廣告,那麼這兩個Query也是類似的;(2)若是兩個廣告鏈接到類似的Query,那麼這兩個廣告也是類似的。

【建議看一下推薦系統方面的書籍,推薦的方法中有不少有意思、有道理可是通常不會注意或者被想到的原理(我看的是《推薦系統實踐》 項亮 著)】

Fig9,左邊是Query,右邊是Ads,中間的邊上的權重是Clicks;最右邊是類似Query的結果;

Fig10,仍是SimRank,其中提到的隨機遊走。。。我也不懂 - -!【★待學習】

Fig11,這個就是充分利用sessions中的信息進行Term改寫(就是計算機網絡中的那個「會話」)

1-7是用戶輸入的Query,可能第一次沒找到滿意的,就本身改了一下,後來又忽然想找4的內容,而後又回去找以前的東西,這些用戶行爲都是能夠經過Sessions來獲取的。

Fig12,查詢日誌的數據挖掘,在Query Segmentation部分的那個相關性,其實就很相似與共現了,A和B就是相鄰Query;可是其中的符號「>>」,應該是遠大於的意思,因此我不太明白上邊的意思。。。

假設檢驗的方法驗證A和B是否獨立,H1的狀況表示獨立,H2的狀況表示不獨立;

Fig13,基於N-gram的term替換方法,其中的「#」表明「諾基亞」,對應的3-gram就是:新款-紅色-諾基亞,紅色-諾基亞-手機

Fig14,計算Query和廣告的相關性,相似於信息檢索中計算網頁和查詢的相關性。【★SVM模型】

====================廣告衆多分類中的兩個分類=======================

(搜索廣告:百度、淘寶、京東這種大型電商網站,用「搜索引擎」作廣告)

(展現廣告:好比新浪新聞首頁,這種非專門作廣告的網站,只能在用戶瀏覽一些內容的時候,順便展現一些廣告)

==========================================================

 

Fig15,展現廣告的一個目錄,下面主要介紹三種方式

Fig16,很容易理解。

Fig17,很容易理解。

Fig18,沒法直接肯定,那麼就能夠利用語義信息(廣告類別、網頁類別等等)進行決策。

 

傳送門:【CSWS2014 Summer School】互聯網廣告中的匹配和排序算法-蔣龍(下)

相關文章
相關標籤/搜索