唐平中講座筆記 Reinforcement mechanism design 20171107

渣排版預警,純草稿。。。算法

唐平中。研究方向是經濟學和ai方向,機制設計和拍賣設計。
內容:廣告優化的方法論,自動優化。微信

【內容】
Basics on mechanism design and resrve pricing
Reinforcement mechanism design:
1.Reserve pricing in ad auctions (在廣告拍賣中佔到保留位,怎麼算到最優)
2.Seller ranking in e-commerce.機器學習


【前言】
Auctions design and revenue optimization 拍賣設計
拍賣:
拍賣的設計涉及錢
誰可以拿到物品,每一個人應該付多少錢。
目標是什麼:
學習


例子:1個用戶,1個廣告主。
q=1 if sold, q=0 if reserve;
buyer(advertiser):valuation x from Uniform [0,1]
假設全部信息你們都知道
buyer utility = x(q-t)
Auction = set a price p(in this case)
buyer decsion: buy if x>p
max(p(1-p)),solution: p = 0.5
能夠推廣到任何分佈,改成f(p)*(f(1-p))便可優化


1個用戶,n個廣告主ui

1.first-price auction
known:Bayes equilibrium to bid (n-1) xi/n
Expected revenue:(n-1)/(n+1)this

2.second price auction
known:Dominant strategy to bid truthfully
Expected revenue:(n-1)/(n+1)
結論:若是你不設保留價的話,那麼你的指望收入和二價同樣。無需證實(xlua


二價定律失效的例子:
畢加索的畫賣給了王健林,2800萬,可是王健林心理預期很高,可是他遇到了一些week buyer.因此付錢價格很低。
解決方案:設最小保留價格,好比我設4000萬的門檻。
但這只是單次拍賣。設計


最優狀況:
若是有1個物品,n個拍賣者
你們的xi都是uniform[0,1]
解決方案:second price auction with reserve 0.5
think of 0.5 as seller's bid, competitive for strong buyers
當你們的分佈不同的時候,查看07年諾貝爾論文。Myerson,1981,Nobel prize 2007
Myerson的問題:
沒有按照bid排序,會影響公平性。
有不一樣的門檻。
Myerson may charge too much.可能會使得賣家流失。
(solution:objective: a revenue + b welfare + c clicks)(MSR論文) 平臺+廣告主+用戶
雅虎:經過手動調整保留價,使得收入增長10%orm


High frequency mechanism design
區別:
1.高頻的環境
2.Dynamic set of players
3.Rational,reflected in the data
4.Complicated,dynamic decision variables


工業界的現狀:
gsp在工業界沒有什麼用,vcg也沒什麼用。
常常去調整廣告的拍賣參數。
Ad hoc,Costly
能不能有一個算法來自動調整參數,使得可以獲得很好的結果。


【主題】
Reinforcement mechanism design
這個不是機器學習,緣由是:
個人方法是想獲得更好的參數,使得廣告收益更高。以前參數的data和我如今的data無關,因此這不是機器學習。
從一組參數很難預測出另一套全新的參數的結果,有一些階躍的東西,總之,這就不是一個machine learning


Dynamic GSP auctions
一堆關鍵字,平臺會收到廣告主的報價,而後咱們能會回覆kpis。
而後咱們都會根據反應來修正本身的行爲。
這其實是一個Markov,每次的報價都depend on 昨天的bid distribution和 昨天的kpis


f(t+1) depend on f(t)

平臺的參數制定,把整個廣告主和本身的平臺看成一個總體,action是天天調整參數,revenue就是天天賺得錢。
對於狀態一,而後一堆bidder根據昨天的kpis和參數出了一次價格,而後能夠推出新的狀態。


每一個關鍵字咱們只看出價最高的bidder,不會讓出價變更很大。
咱們的bidder model使用rnn
輸入:
kpis containing stats of several consecutive days
time-sepecific features.
輸出:
bid distribution for the next time step(bid不容易預測的準,因此咱們直接預估分佈,並且頭部buyers也是會變更)


結果的話,用rnn預估的結果和線上的結果確實比較符合。
效果比百度自己的預估好一倍。


解決刷單:
刷單方案:
1.建一個微信羣,而後每一個人給錢,寄空包裹,而後提升個人好評
2.把本身的價格壓的很是低,使得本身的成交量上去。

致使使得一些不是優質的賣家,佔據了優質流量,使得平臺的轉化量比較低。
淘寶自己的objective比較複雜。

解決方案,其實是將差的賣家扔到下面去。
本質上是流量的分配。


總結: 。。。好像咱們的廣告系統的bid和推薦系統是分開的,因此這玩意兒好像咱們根本無法用。 不過動態調整參數能夠借鑑一下,能夠試試greedy的方案。

相關文章
相關標籤/搜索