北美電商真的落後於淘寶?亞馬遜爸爸表示不服!

AI 前線導讀:電子商務 (E-commerce) 在當今發達的互聯網背景下正蓬勃發展,而近兩年火起來的數據科學和 AI 技術將會讓電商行業如虎添翼,茁壯強盛。AI 前線請到了在電商領域經驗豐富的講師和你們交流分享他對北美電商行業的現狀觀察,探討行業中表明性 AI 技術前沿(eg. 機器學習 (ML)/ 深度學習 (DL), 語言處理 (NLP))和實踐案例,並從技術的角度展望電商行業將來的發展趨勢。

更多幹貨內容請關注微信公衆號「AI 前線」,(ID:ai-front)

聲明 | 本文爲 AI 前線獨家整理,未經許可,不得轉載!前端

文字版以下:
web

Hello,你們好,我是 Wenkel。今天很高興能借貪心科技這個平臺來和你們交流分享,我在電商這個行業的經驗和體會。算法

我我的以前是在南加州的 KPMG 作數據相關的資訊服務,後來轉到 Revolve,就是洛杉磯最火,北美也是挺流行的一個時尚電商作 Fashion 相關的東西;在去年我又跳槽到了 Beverly Hills,就是比弗利山莊的一家紅酒電商,名字叫作 Drinks,是一個創業公司。數據庫

今天是女神節(3 月 8 日),想必女神 (生) 們對電商應該是一點都不陌生。那麼對男同胞們,想對電商有進一步的瞭解也是不無益處的。因此今天咱們的主題是電商新寵,就是數據科學和 AI 技術。這兩大行業在這幾年是洶涌澎湃,電商也確定對他們有很大的青睞。服務器

電商的分類與應用

那麼先來看一下什麼是電商以及北美電商的分類與現狀。微信

什麼是電商呢?我我的認爲這個下面的定義比較穩當,它是一個:Business model enabling a firm or individual to conduct business,就是可讓商家、一個公司企業和我的之間產生商業的交易,是經過一個 electronic network,typlically 就是咱們所熟悉的 world wide web,是互聯網 internet。網絡

電商如今已是無所不在了,能夠說是貫穿於你們的吃穿住行,就像右邊這個圖畫的一個購物車,什麼都是能夠和它離不開,buy and sale 買賣均可以在購物車裏面進行,或者跟它相關。機器學習

咱們來看一下主要的傳統的電商的分類是有四大類:B2B、C2C、B2B 和 C2B。它最重要的兩個點一個就是 Business,就是 B 表明商家企業,還有一個不可缺乏的部分就是咱們的 Consumer。electron

Business-to-Consumer

一個最多見的 Business model 就是 B2C,所謂的 商家和我的之間的買賣交易。這裏舉一些例子,北美的話,目前最大的兩家應該都是比較有耳熟能詳了,amazon.com 和 Netflix。ide

amazon.com 股票已是從去年的 九百塊漲到了如今的一千5、一千六,估計會很快翻倍,它的價值是愈來愈高。那 Netflix 是作 Video,就是視頻類的電商,以前是從一個小光碟寄到家裏,只要是會員用戶就能夠每月免費的選片,換想看的電影,如今已經變成了是直接在網上視頻能夠觀看。這兩家就是目前最典型的 B2C。

那傳統行業來講,像沃爾瑪,Walmart.co,還有塔吉特 Target,Best Buy 百思買,他們都是傳統的線下的零售行業,如今也是都火燒眉毛,或者說必須被強迫着弄在網上作.com 的各類買賣,你也能夠在網上下單,瀏覽商品,直接去店裏配套。

Consumer-to-Consumer

第二種常見的模式就是 Consumer-to-Consumer,所謂的 我的與我的之間的交易交換,這個圖畫的比較潦草,但意思你們應該會很容易理解。

這個 Consumer-to-Consumer 和之間交換的鼻祖應該是從易趣 EBay 開始,我的把本身想出售的物品放在網上,EBay 提供這個平臺,可讓其餘人去購買,去競價這些物品。

這裏還有其餘例子,像 airbnb 這是最近幾年流行的灣區獨角獸公司,是作閒置的房屋還有我的的空間的一種租賃,把用戶以爲多餘的或者暫時不須要的房間、房子能夠經過這個平臺租給其餘人。

Etsy 是個比較有意思的 DIY 的愛好者,也就是手工愛好者 APP 交流的網站,你能夠把你作的藝術品、純手工的東西放到這個平臺,讓其餘的手工愛好者、藝術家互相交流買賣。

Uber 對於你們來講應該是很熟悉的,像國內的滴滴同樣,滴滴已經把它的中國業務給合併了。Uber 剛開始是從作我的的私家車的搭車業務,或者是臨時司機,幫用戶搭順風車的服務。如今它已經開通 Uber eats 開始作外賣,像美團、餓了麼同樣,它也是能夠又接客又送貨。

這邊我想提一下元老級的 amazon.com,它開通了 Prime now 服務,也開始嘗試食品業、餐飲業的服務,蔬菜、水果均可以賣,用戶也能夠在 amazon 上面開本身的網店進行交流。

Business-to-Business

第三種類型,就是 Business-to-Business B2B,所謂的商家與商家之間直接的交流,就是企業級的

我先舉個例子, amazon web services 就是 AWS,也是 amazon 旗下的一個雲技術提供服務中心。

AWS 長久不衰的幾大產業:

第一個就是 數據庫,快速的並行的數據庫的鏈接好比 Redshift,這是雲端的;

第二種就是 存儲,S3(Simple Storage Service),這是雲端的存儲,它自稱是沒有限制的,能夠無限制的儲存,只要你付費;還有 EC2(Elastic Compute Cloud),就是彈性的雲端計算,它是專門作企業級的服務器,像咱們公司就是用了不少 EC2,不少 Compute Cloud 在雲端的服務器,這樣咱們就不用本身再開一個機房,或者是開一個數據中心去存這些數據和網頁的服務器,只要付錢給 Amazon 他就能夠保證你能暢通的運行,這是 Amazon 是絕對盈利的部門。

微軟也開通了 Microsoft Azure,雲存儲、雲計算相關的服務,應該是跟 AWS 是相競爭的,他們也是差不太多的內容。一樣 Google 確定也不會閒住,他們也是提供了 Google Analytics 服務,但這個稍微有點不同:GA 不是雲端的服務器的 solution,不是解決這種問題,它主要提供的是一種 tracking,數據流的記錄。怎麼說呢?至關於你在各類電商網站的一舉一動,好比說點擊哪裏、瀏覽多長時間、用什麼樣的設備,是平板仍是電腦來瀏覽,它都會把這些全部的用戶的行爲所有記下來。不少電商網站都會用 GA 來作相關的 reporting,就是數據的分析和處理。

這裏還有一個例子是 Square,它是也比較有意思新穎的一種 B2B model,主要是用在中小型的商家,好比 food truck(流動餐車)那種在北美很常見的移動型餐車、個體戶,他們能夠經過手機端,如今也有使用 NFC,或者 Apple pay 這些手機的網絡鏈接、4G 鏈接進行刷卡的服務,Square 方面會收取必定的服務費,可是這個就很 mobile,很移動性,不須要專門連到 POS 機上面。

Consumer-to-Business

最後一種常見的分類就是 Consumer-to-Business,顧客和商家之間的的交易

舉幾個常見的例子:

第一個是 Google 的廣告部門。在北美打開免費的網頁,或者免費的 APP,雖然不少網頁或 App 上面說是免費,可是它是自帶廣告,這些廣告都是用 Google AdSense 提供。

舉個例子,在網頁的左下腳或者右下腳常常會彈出一些廣告鏈接,通常是 AdSense 自動決策,幫助篩選出來你可能感興趣的廣告。你點擊的這些廣告,其實是至關因而幫 Google 掙了一些廣告費,可是你也是在使用免費的功能,因此其實你就花了本身的時間去交換了免費的功能。

下面這兩個例子應該比較好理解:Survey Monkey、Survey Gizmo 是作商業調查的,經過用戶在網上完成調查之後,商家獲得反饋就會付錢,相應的佣金到這兩個平臺上。做爲消費者,你若是花了時間,還有你的我的信息去作這些調查的話,你可能也會獲得必定的報酬,像打折卡、打折券、代金券,不必定是現金的回饋,這是從 Consumer 角度出發到之間的合做。

數據科學和 AI 技術在電商的應用

咱們下面再看一下數據科學和 AI 技術在電商的應用。

數據科學這裏說了,也是數據驅動科學,Data driven class,它是一種跨科學的方法,一般它是結合了多種算法和系統領域,用於提供數據各類形式的數據中提供支持和間接,那麼就像左邊這個示意圖同樣。

一般來講電商行業從剛開始第一步,Customer 是在電腦前瀏覽物品下單,放在購物車,而後刷卡、買單,到下面這個單被接收,刷卡成功,發給你一個確認郵件,顧客和商家都接到相應的郵件,在 warehouse 去打包準備,發貨。

整個流程會產生不少的數據,這裏列舉了像 Traffic Data,流量數據,好比說 User 的 Activity,即用戶的行爲,包括 Impression,看到的印象流量;Click Though,點擊的行爲;Session 就是花多少時間在看相應的物品;Email Activity 就是郵件端的 traffic,包括了打開點擊,還有訂閱,或者取消訂閱,這些都是流量數據。

相應的交易數據有這樣幾種:這裏主要的例子是 Order History,就是下單的記錄,買賣過什麼樣的東西;Membership Subscription 就是會員訂閱,從什麼時間開始、訂閱多久、是什麼樣的會員。

還有用戶信息數據,用戶信息就是我的相關的,這裏我列舉的例子就是 Demographic 和 Geographic。Demographic 是人口調查,好比用戶的性別、年齡、還有收入狀況,住在哪裏、有沒有買房、有沒有車,這些都算人口普查數據;Geographic 就是地理信息,你的經常使用住址是住在大城市,仍是二三線城市,或者是在郊外,這些是地理信息。

一樣呢,每一個顧客都會有本身的 Traffic/Transaction Data,就是瀏覽的信息和下單交易的數據。在電商裏有不少種不一樣的數據,數據科學 AI 技術就應用在這裏,就是從數據裏面提取出知識和一些有用的看法。

下面咱們來具體看一下比較有意思的三個實例。

  • Amazon GO,就是今年年初亞馬遜才正式對廣大人民羣衆開放的;

  • Smart Speaker 是咱們如今已經比較流行的智能音響;

  • Netflix Artwork,以前有導師也提到過怎麼樣作用戶級的推薦,關於影片的推薦。

Amazon GO

Amazon GO,它是一家無人商店,國內像阿里巴巴也有開這種相應的無人商店,估計是差很少的技術形態。

Amazon Go 目前在西雅圖開了一家試用,聽說進門是須要排隊的,由於想去看的人太多。

像這一幅圖展現的,這家店沒有具體的營業員在出門的時候作結算,它主要的技術,我這裏查了相關資料是說有 Computer Vision 作動態識別、用 Deep learning 作動做的一些行爲判斷,還有各類 Sensor、Sensor Fusion 進行會員身份和物品的探測。

進門時候是要下載一個 Amazon GO 的 APP,掃了之後就能夠經過這個 Sensor 把用戶是什麼樣的形態、相關的信息、買過什麼東西、是會員仍是非會員都查到。掃了二維碼之後,用戶就能夠進入。進去之後,天花板上應該處處都是攝像頭,照片裏沒有體現,可是你的一舉一動應該都是被徹底記錄下來的。

咱們先看一下 Computer Vision 動態識別,這個技術的核心是怎麼回事呢?

Computer Vision 它主要的技術核心是用卷積神經網絡,就是叫作 Convolutional Neural Network。

這裏舉一個簡單的例子,就是從最基礎開始,一般一幅圖片,一個英文它能夠分紅三個顏色:RGB;有些時候你可能會有些圖,有些透明度:RGBA。每一個 RGB,紅綠藍都會有相應的數值,卷積其實是對每一層的顏色作了一個 fillter(濾鏡)。

這裏我舉個例子:用 3×3 的濾鏡,濾鏡的意思是想把圖像的各個框框角角均可以把各個框角的 feature(特徵)給抽取出來,像圖中描述的,它將 3×3 的濾鏡從左到右規定一個 Stride(步數),這裏的步數應該是 1,從左到右再從上到下,所有掃出來之後,相應的圖層就會簡化成一個 Convolved Feature,就是一個縮小的矩陣。那這種矩陣一般能夠作卷積層,就是 Convolved。

像這種套用濾鏡作卷積,也能夠用簡單的 Max pooling,直接取它的最大值,這裏的例子是 2×2 的濾鏡,和兩步的部署,在每一個 2×2 的框裏就取最大的值,像這個框咱們就取 6,相應的 8,每個圖層裏面取最大的 Value 值。這種作法就是幫助咱們能夠減少整個圖片,把圖片的各類顏色的各類特徵提取出來。

從這裏看到,若是用不一樣的濾鏡和不一樣的步數能夠獲得縮小化的矩陣圖,而後咱們能夠相應的圖層,作 convolution 和 pooling 之後,放到不一樣的矩陣,這樣直接輸出到下一層神經網絡就能夠把它從各個角度、各個方向相應的特徵都提取出來。

這裏的例子,就是卷積神經網絡能夠作的,把一幅靜態的圖片分紅 3 個圖層之後,每一個圖層作卷積和 max pooling,而後提取它的最大的特徵,再作幾回的卷積和 max pooling,能夠作不一樣的結合,一般來講這樣應該是能夠起做用。到後面,把它們所有進一步的壓縮減少,最後能夠告訴你這個圖裏面它是有狗仍是有貓,仍是有船和鳥。

每個識別帶有一個機率值,機率值就是越高的機率越大,說明這個圖片裏全部的物品的機率就越大,或者說就能夠確認這個圖片裏面有什麼樣的物品,這裏是船,能夠看出來它是的確有兩條船。

剛纔說的卷積神經絡它是一個靜態的圖片的一個判斷,就能夠判斷圖片有什麼樣的東西,實際上 Amazon GO 你們都是移動的,挑選商品的時候都是走來走去的,咱們必需要進一步的利用 CNN 卷積神經網絡的動態識別。

動態識別算法也是有一段的歷史,近十年發展的很快。簡單介紹一下從剛開始的 Sliding Windows,一種滑動窗口的算法,它的概念就是:每一幅靜態的圖片裏,定義一個像濾鏡同樣的窗口,在這個窗口從左到右,從上到下不斷的掃描,每一個窗口都會作一個判斷,每一個小窗口都有對應的圖片,來判斷這裏面有沒有我想要的物品。這裏是判斷有沒有車。

滑動窗體算法中的窗體基本上能夠固定掃動,一直到掃描到目標物體,好比這輛車的匹配度是零點九幾,那就能夠找出最高几率的這個窗口,進而確認這裏確實是有一輛車。

這個算法的缺點就是會很是的效率低下,由於剛開始一幅大圖把它分解成不少小圖,不斷的掃描,對計算能力來講也是個挑戰,由於要花不少的時間不斷的掃,掃到還要判斷哪一個圖片是最有可能有這個物品。

到最近幾年來比較流行的算法叫作 YOLO,就是 You Only Look Once,只掃一眼。它的意思是說給你一幅圖片,某個時段的樣片,你能夠很快的去判斷這個圖片裏面的物體。

它是怎麼實現的?主要的精神是說把這個圖片按照網格(grid)分析,分紅了不少小網格,在每一個網格里判斷物品的重心(Center)會在哪裏。咱們就用這個車做爲例子,判斷這些重心在哪裏。一樣它也會判斷小網格里面有沒有目標物體,若是有的話就會提供一個很高的機率。

當把這些發現有車的小窗口所有合在一塊兒,變成一個大的窗口,那就須要設一個相應的一個域值,域值超過必定的量,說明物品確實存在小窗口。把小窗口所有鏈接起來,就會獲得大一點的圖片,一樣再經過 CNN 作一次判斷,判斷這是否是對機率有所提升,或者下降,這樣就能夠知道:大圖經過每一個小圖拼湊起來的應該是個完整的物品。

固然了,這裏面還有不少複雜的過程,好比說有可能會發現其餘框也能夠體現一個車,能夠有不少的鏈接各類小的 grid 也能夠獲得一個比較完整的 object(物體),你就要判斷哪個框是最能表明這個物品的。

總而言之,有了 YOLO 這種算法能夠再加上目前最火的 GPU,能夠很快的把動態的圖片提取出這個物品的小框,能夠肯定是什麼樣的物品,是人、仍是商品,這樣的話,能夠很快的肯定這張圖裏面的用戶有沒有拿東西。

咱們再繼續看一下 Patent,2014 年 Amazon 就已經申請了相關的專利。

能夠看到:每個物品它都是有編號的,攝像頭還有網絡都是有相關的代碼,錄像機、攝像頭所有均可以實時的處理,顧客每走到不一樣的貨架旁邊取相應的貨架的一個編碼,在用戶取了以後系統就知道這個物品是否還存在,它的重量會變化,它相應的圖像也會有變更。

每一個物品都會有本身對應的編碼,能夠幫助系統來判斷物品是否是已經被拿走。因此這裏能夠判斷商品的數據源就有不少,首先從卷積神經網絡得出的圖片的斷定,還有重量和壓力的變化,物品的格間是否是有東西在,同時還能夠結合用戶過去的交易記錄來判斷它是否是有交易的行爲。

這裏也能夠用到 Deep Learning,就是深度學習,做爲 input 能夠判斷出,用戶是有購買或者是有拿取得行爲,或者是否是放回去,從而作出相應的決定。

Smart Speaker

咱們接着講 Smart Speaker。

從 2014 年開始,Amazon 就投入了大量的資金,研發出 Alexa 這個智能音箱的產品,而後緊跟着你們發現這個市場特別的好,Google 也推出了 Google assistant,微軟也是在 2016 年就推出了音箱 Cortana,好像不是特別著名;到去年爲止,亞馬遜又提出升級版本,推出了 Show 還有 Look 這種帶攝像頭的產品;蘋果也推出了自家的 Homepod,也是個智能音箱,好像就是今年會推出它的更新版,和 Siri 聯繫在一塊兒;三星也是相應的推出 Bixby,廣告上也常常在提到。

智能音箱是很是火爆的產品,各大電商技術巨頭都推出相應產品,幫助你們在網上下單,買賣東西。那麼咱們就專一一下 Amazon Echo 這個最早驅的產品,或者說從 Echo 開始智能音箱纔打開了這個市場。

Echo 如今的功能已經很是的強大了,圖像化的它能夠連上手機的各類 APP,聽音樂、聽電臺、聽新聞、看電視、叫車,放在家裏能夠用來看 Amazon fireTV,同時智能家電像溫度開關,還有家裏的電燈開關,均可以經過智能音箱去控制。

主要的技術背景這裏咱們應該看獲得,就是語音識別和語音分析。語音識別就是經過無論是英語仍是中文,仍是其餘阿拉伯語、日本語均可以讓智能音箱能瞭解到你們想要作什麼樣的事情。

這裏介紹一下語音識別的技術,近幾年也是發展迅猛:

從剛開始把每一個語音波段,像這幅圖裏面語音波段提取相應的音素叫作 Phoneme,每個 Phoneme 提取特徵,就像咱們拼音的元音、輔音,一些比較有表明性的發音,就是由音素組成,把這些元素提取出來,拼湊成相應的字,或者詞組,這是剛開始的語音識別的比較工程化的技術,如今已經發展到用 RNN,就是遞歸神經網絡。

遞歸神經網絡它不一樣於傳統的神經網絡,它是有遞歸性的,意思就是說:每個神經元(見上圖),他們是互相鏈接的,上一層的 a,也就是激活函數,它處理完的輸出能夠直接輸出到下一個函數,這樣不斷的迭代。同時,每個相應的輸入,不一樣的單詞、詞組都會分別輸入到每一個神經元裏面,可是這些神經元又是跟以前的神經元相連,更復雜一點的網絡,咱們能夠說從正方向相連,也能夠從反方向互相聯繫。

最後訓練成功的這個網絡,每一個神經元都會輸出 Y1Y2 這樣的值,就會判斷每個 Y 表明什麼意思。若是你須要提取名字的話像「Teddy bear」輸出能夠這樣表示:0011000。如今更復雜的狀況,Y 能夠變成一整個向量性的輸出,它在一個詞庫裏面,好比「Teddy」對應的值爲 1,詞庫裏面其餘不相關的詞就會判斷爲 0。

意思就說它判斷出來,某個詞在相對應的階段的語音,接近於對應的單詞。它直接跳過音素這種比較傳統的步驟,直接經過整個語音的長度和廣度,就能夠判斷出這段聲音的文件它表明的什麼意思。這個就是 Voice Recognition 的大概的工做原理。

有了 Voice Recognition 語音識別,咱們能夠進一步的識別出了相應的文字就能夠作 NLP,天然語言分析,也是語義分析。

語義分析也是很熱門的學科,能夠作各類各樣的事情,好比說最多見的:

  • 詞頻統計,經過公式算詞頻在某個文件、某個文檔裏面出現多少次,或者是統計它在這篇文章或者整個文庫裏邊,它出現的頻率作一個層級,就能夠算出它正交化的詞頻統計。有了這個相關的數據能夠做爲數據輸入。

  • NER 就是 Name Entity Recognition,是專門作名字、名詞相關的物品的一個識別。

  • POS 就是 Part Of Speech,詞性解析,像中文的主謂賓是主語,在英語裏邊就是形容詞、名詞、代名詞。

  • N-Gram 就是組合詞頻,好比:Cat 就是一個單詞, Running Cat,就是一個詞組,它是有兩個單詞進行,就是 2-gram,N-gram 就是把這些高頻組合的詞去挖掘出來。

  • Word embedding 頗有意思,能夠把各個詞,按照它們的類別進行分類,好比 Man、Woman 能夠按照性別等等進行分類,能夠把它做爲一個相關性的向量展開,這就是單詞嵌入,每一個詞就賦予了更深的意義。

有了以上的這些,咱們就能夠作進一步的分析,好比情緒分析,喜歡仍是不喜歡,正面的色彩是負面的色彩,像一些打分系統,就是用情緒分析來作。

也能夠繼續作 GloVe/Word2Vec,用的是 Word Embedding,把詞展開到對應的向量空間,從而能夠判斷這個它在整個句子的成分,或者說跟上下文相關,在一段內容裏表示的具體意思,或者對將要出現的下文作個判斷預測。

一樣還能夠開發聊天機器人,有了這些 NLP 的手段能夠去跟真人聊天,或者是解決一些簡單的真人的問題。好比開燈關燈、開電視,從語音分析裏面提取想要的重點,達到要完成的願望。

Netflix Artwork

咱們再最後看一下 Netflix Artwork。

也是挺有意思的一個實例,用上了數據科學和 AI 技術。上圖左邊的是一個在北美挺有名的科幻電視劇,主要的情節是小朋友到了虛幻的空間探險,從真實到虛幻。

對不一樣的人羣來講,這些海報應該怎麼樣宣傳?這裏就能夠把影片的各個情節都提取相應的插圖做爲海報,喜歡恐怖片的朋友可能會看帶血腥的,或者帶火焰的;喜歡小朋友的觀衆可能看到有不少小孩的海報;還有我的喜歡某一個明星,那麼他我的的海報做爲粉絲你應該是感興趣。

這裏須要一個有效的推薦引擎來給用戶推薦,用戶看了這個宣傳海報之後,是否是要去點擊播放。

傳統的方法就是首先收集數據,建好模,作好各類 A/B testing,而後把這個 Model 正式出品,執行在前端。這個時間其實是會好久,短暫來講可能要花上幾星期,可能也會是數個月。在這段時間內,可能用戶的喜愛就會發生很大的變化,可能在最後把這個模型推出之後,跟以前預測的用戶在這個時間點的品位又不同,模型反而不清晰,產生很大的分歧,並無達到想要的功能,或者並無推薦到用戶真正喜歡的東西。

Netflix 最新的算法是一種強化學習的手段,叫作 Reinforcement Learning,它的主要特色就是:能夠快速的迭代,持續的優化。

咱們來看一下它是怎麼樣實現的,從簡單開始,它的核心思想簡單來講是:多臂帶寬(Multi-Arm Bandit)的算法,在 RL 裏面定義一個 state,經過 reward function Q,就會得出 reword 是多少。像這個章魚同樣,每執行不一樣的步驟就會有不一樣的效果,每一臺都像賭博機同樣,啓動了賭博機 A 和賭博機 C,可能會輸或者都會贏,value 都不同。

上圖中的公式在這裏就定義了:功效應該等於 reward 加上γ乘以將來的功效。假如γ是 0,就不考慮將來指望值,上一次獲得的 reward 是多少,就一直按照這個方式去進行,不會去考慮其餘的可能性。

如今看來要達到最好的辦法,Netflix 採用了一個叫作 Contextual Bandit,環境帶寬算法。

contextual 其實是來定義用戶是一種環境變量,每個用戶都有不一樣的背景和喜愛,那這裏就把剛纔的公式複雜化,加入了 learning rate,意思就是說 Customer 它的將來的這個 Q,是須要經過建模來達到通預測的功效。

加入了 learning rate 以後,α若是等於 1,就能夠去掉掉兩邊,換成剛纔 MAB 算法。若是模型不須要太考慮將來,那就用剛纔簡單優化算法,按照每一次的結果,來選每次獲得最高效用的那個模型;若是想讓 RL 模型去學習更多、探索更多將來的未知的狀況,假設α不是 1,這個時候 Q’ 的做用可以體現出來。Q’是用一個相似於深度神經網絡這樣的模型來作預測,這裏舉的例子就是把客戶的瀏覽記錄,還有我的的背景,還有可能一些像年齡性別這些相應的信息做爲輸入。也許你可以得到不少顧客的信息,多是百萬級,用這樣的方法對這些信息作一個深度學習的 Training。

我這裏是舉的例子是股市交易,有相應的 budget 和 shares,加上交易的記錄,能夠作出一個深度學習的網絡,它能夠作出決策:你須要買仍是賣,仍是 hold。它這個例子呢,在這邊就是最後能夠用 Q’做爲將來回報的預測。有了整套系統,你知道了近期的 return,而後又能夠預測的將來的 Return,固然這個 Q 太初級,可能要在不斷的迭代候才能夠正式使用,這樣的話,就會比剛纔提到的單一的建模考慮到更多的變量,它會更加快速的迭代。

相關文章
相關標籤/搜索