譚安林：大數據在教育行業的研究與應用

時間 2019-11-21

標籤數據教育行業研究應用欄目 Android 简体版

原文原文鏈接

演講嘉賓：譚安林，騰訊高級工程師。2015年加入騰訊，8年互聯網從業經歷，從事大數據平臺與產品開發相關工做；前後參與廣告、金融等領域產品項目，目前負責行爲預測解決方案，幫助客戶盤活現有客羣、挖掘潛在高價值新客。目前咱們的產品包括：智能客服、大數據套件、騰訊移動分析、騰訊移動推送等。

今天我分享的是在騰訊雲在大數據對用戶行爲預測這個項目中，有關教育行業的一些實踐，但願能夠給你們帶來一些幫助。這一年咱們所作的是用戶行爲預測解決方案，針對教育行業定製一些行爲分析和預測，但願能夠幫助你們更好地藉助於數據。大數據對外開放有兩個模式。第一個模式是平臺技術，咱們會將大數據的能力開放到雲端給你們使用，好比騰訊大數據框架。第二個模式，咱們考慮到對內數據服務的能力模型，複製對外，爲你們提供一些有針對性的行業服務。數據庫

中國的網友有8億之多，98%的用戶羣使用移動互聯網。2017年始，月活的移動設備數量穩定在12億左右，新增紅利在漸漸消失。深挖存量的大盤用戶價值，有兩方面的考慮:一方面，咱們但願給整個大盤的存量用戶提供更有針對性的個性化服務、產品和推薦；同時針對各個行業，挖掘出大盤用戶的價值，爲行業帶來數據上的增加。後端

咱們之前作過智能推薦，在金融領域進行用戶逾期行爲預測的開放，在相關的反欺詐、風控場景中進行使用。在教育行業，隨着技術的發展以及產品的日漸豐富，整個教育行業的用戶增加是很可觀的。在將來幾年，教育行業會持續發力，咱們也但願能夠在這方面作一些事情。安全

用戶行爲預測幫你們解決的問題有哪些？從運營的角度考慮，獲取潛在客戶的環節，能夠幫你們瞭解誰是你的用戶，哪一個平臺適合作精準化營銷。獲取用戶以後，咱們會分析哪一個用戶價值比較高，更容易付費轉化。咱們能夠作這樣的識別，哪些用戶在必定的生命週期後會流失，咱們要作出流失預警以提早干預，而不是等到流失後再幹預，這時候已經來不及了。微信

咱們的產品運營會貫穿數據化的工做，從用戶引流開始，到判斷用戶來源渠道是好仍是壞、用戶的價值是高仍是低、提高轉化效果等。這就說明產品要作大，必然須要一些潛在的客戶，將當前用戶的盤子進一步擴大。其中涉及到的數據分析服務，主要能夠分爲三個方向：架構

新用戶的預測，即新增用戶。
留存用戶，即當前使用產品的用戶。
潛在用戶。

如今市場上的移動分析，也須要相應的工具。例如上面提到的三個方向，咱們要作數據化的運營，首先要明白運營指標、目的是什麼，從而把這個指標轉換成數據的指標。好比天天的轉化率，咱們會推進終端作數據的採集、APP的打點，將數據分析和數據開發經過相應的報表進行呈現。整個過程當中，無論是咱們自研仍是用外界的工具，好比雲盟和騰訊分析等，咱們均可以直觀地看到一個產品運營的狀況。可是要作深刻挖掘，判斷哪個用戶有價值，這確定是不夠的。咱們還要進行標籤的建設、模型的建設，判斷應該構建哪些標籤、哪些模型。最終構建的標籤和模型都須要落地去作數據產品，作到可視化，使咱們的運營、產品所見即所得，找到一個比較好的運營方向。框架

在整個實施過程當中，咱們也瞭解到，不管是教育行業、金融行業或其餘電商行業都面臨一樣的問題。數據在終端收集以後，咱們要落地到標籤系統，生成標籤。這個環節會很是困難，首先咱們要聯動不少崗位的同窗，從產品到終端開發、後端開發，以及數據分析、算法等等。你們的KPI是不一致的，運營同窗主要是作數據增加，後臺、終端同窗更多傾向於作出新功能和並維護舊功能的穩定性。這樣的數據需求提給他們，你說要打一個點，頗有可能很小的事情會作到一個月甚至是半年之後。這裏存在一個應用難的問題。工具

同時還有一個問題，對於新用戶或APP已經留存的用戶，基於咱們數據採集的方式獲取到的數據很是少。少到什麼程度？可能只有幾條。這些行爲的數據是付費轉化的數據，但你也不知道還須要哪些其餘的數據。這時數據不多，很難刻畫一個用戶是否是高價值，是否是容易被轉化。即便構建了標籤系統，還須要另外一批人去建模，須要四五我的或十幾我的作模型分析。選擇哪一個模型，判斷哪些特徵有效，模型構建完成之後還要去運營、落地、實驗，這時候還須要進行實驗的工具，整個過程是很複雜的。學習

用戶行爲預測項目的出發點在於標籤建設和模型建設這兩部分。化繁爲簡地說，咱們但願作到的是咱們來提供API，你們來上傳行爲數據，咱們再進行落地的簡化。你們不須要作標籤建設和模型建設，咱們能夠直接預測用戶的付費評分、轉化評分，以及一週內是否會流失的預警。在簡化落地這部分，若是你們聯動開發、算法、分析一塊兒作這個數據產品，須要20我的甚至更多。但在使用這個產品以後，只須要兩我的去作這件事。一我的開發API，接入數據；另一我的使用這個系統作運營。同時，咱們也提供小步實驗的工具。測試

下面我來介紹一下騰訊雲對於用戶的刻畫，主要分爲五個方面，包括人口屬性、社會屬性、用戶消費、用戶行爲、興趣偏好。你們在報考駕照時可能關注點不太同樣，有些人但願週期較短，有些人但願便宜一點，有些人但願教練不要罵人。咱們能夠經過標籤，刻畫不一樣用戶的分羣，針對這些分羣作一些定製化的營銷。特別是針對教育行業，咱們能夠把一個羣體分爲七天內流失可能性是高危、通常仍是低流失的不一樣分羣，進行一些有針對性的運營策略。接入的方式是圍繞用戶行爲進行接入，獲取用戶接入第一方的數據後提供模型，或從行爲中抽取樣本再進行建模。在這個過程當中，系統會提供一鍵預測的功能，客戶直接在系統上進行操做便可。預測出的結果能夠截取下來進行本身的運營實驗，咱們最後也會根據用戶行爲進行跟蹤。在市場上有一些行爲跟蹤的產品，它們要求的是效果反饋，須要有一些KPI。咱們根據純粹上報的KPI作變化跟蹤，直觀地看出哪一個策略好、哪一個策略差。

剛剛提到三個方面的服務，第一方面是對留存用戶，第二方面是對新增用戶，第三方面是幫助你們挖掘潛在用戶。先來看一下留存用戶，也就是如今已有的用戶，這種場景比較好的地方就是第一方數據相對較多，咱們的模型會比新增用戶的模型更好。主要分爲如下四個部分，一是數據管理，數據管理不只是第一方數據，也包括互聯網大盤的脫敏數據，咱們會有針對性地進行融合。第一方的數據是註冊信息、設備信息、行爲信息，好比用戶登陸的時間、瀏覽的頁面。這些信息接入進來後，咱們會進行概覽性的分析，好比天天的PV、UV分別是多少。同時咱們也會對每一條數據進行質量評估，由於每個字段的完善度都會影響模型的效果，若是完善的話，模型將在0.8以上；若是不完善則會在0.7到0.8；若是特別差的話，模型就不能被使用。

第二是留存預測。咱們能夠提取一段時間內的用戶包進行預測，預測模型能夠是多種，根據多種需求能夠自定義、也能夠進行增長，當前的預測主要是流失、付費、逾期還款等。在預測出來後會出現一個機率的分值，能夠根據機率分值將它自定義分紅幾個分組，也就是分羣。例如在付費的模型中，付費轉化率高的人，咱們稱爲高付費，次之是較高付費。咱們能夠在這個基礎上再進行分羣的洞察，在這個分羣洞察市場上有不少移動分析的軟件，可是它們提供的畫像頗有多是通用型的，甚至對於某個羣體是沒有顯示度，也就是沒有顯著性的。咱們針對不一樣的行業，特別是教育行業，有着本身的行業定製標籤，好比教育關注度、教育堅持度這樣一些畫像，可以有效地展現其中的羣體形態。若是你發現這部分人羣有怎樣的畫像特色，在以後進行廣告投放時能夠諮詢一下廣告投放平臺，支不支持這些標籤的投放。若是能夠的話，就能夠實現精準投放。

再來介紹一下咱們分羣所用的標籤。我展現出來的是兩個畫像，一個是教育關注度，一個是教育堅持度。首先介紹一下圖表，圖表上207這個數字，表示的是TGI的相對顯著性，數字越高表示這個特徵和它所對應的分子越大，也就是正相關性越高。這個數字大於100表示正相關，小於100就是負相關，數字越小就表示負相關越大。教育關注度越高的這些人付費意願就會更強。教育關注度就是根據客戶在大盤教育類的諮詢，以及周邊產品的關注程度聚合出來的畫像。

再來看教育堅持度，它的表現也是同樣的，越能堅持的人，越願意付費。在這裏教育堅持度咱們怎麼刻畫的呢？他持續使用大盤裏某類或所有的教育產品，這種持續的時間投入，咱們稱之爲教育的堅持度，這是由不少特徵聚合出來的畫像。

剛剛看到的是行業的標籤，咱們構建的標籤分紅了通用標籤、行業標籤、場景標籤以及個性化標籤。這裏是通用標籤，通用標籤就是遊戲的沉迷度，好比說在遊戲上消耗的時間和週期，能夠根據這些行爲進行刻畫。咱們發現它的顯著性和教育關注度不同，越沉迷遊戲的人，付費的可能性就越低。在自我驅動力上面，他會本身驅動本身作一些相關的學習、收藏，屬於比較有自發性行爲的數據。這種數據能夠刻畫出越上進的人，越可能會付費。

這是一個實驗項目的跟蹤展現，上面是測試數據，不是真實的數據。咱們的實驗包括兩種實驗，一是人羣對比，將較高付費的人羣及高付費人羣作同一個策略實驗。咱們能夠打電話營銷、發短信營銷，甚至能夠建羣爲他們進行鍼對性的服務。在這些方式下，能夠得出哪一種人羣轉化率更高，哪一種策略更適合哪一個人羣。第二是策略對比，針對較高付費的羣體，咱們進行剛剛三個策略實驗，就能夠看出哪一個策略對這部分人的效果更好，在具體的運營實驗上花更少的成本，去體驗整個實驗的效果。

第二個方向是新增用戶。新增用戶爲何放在留存用戶後面講呢？由於這部分能夠得到的數據更少。咱們能夠獲取到留存用戶的一些行爲數據，但新增用戶可能只有手機號、設備環境信息和相應的價值信息。咱們能夠作到的是新增預測，提供單獨的API服務。它的應用場景主要是有兩個點，一是渠道質量的預估，爲何是預估呢？咱們在運營中會面臨一個問題，投放廣告、投放營銷預算應該選擇哪一個渠道？評估一個渠道的好與壞有兩種方式，一是諮詢別人，這種方式並不可靠。第二是進行實驗，在一週、兩週、一個月以後，觀察這個渠道的付費轉化率是多少、流失狀況是多少。咱們對模型進行了預測，這時就能夠把渠道的質量預估提早，若是預測出某個渠道的質量很是差、轉化效果也不好，這時就能夠把營銷預算往好的渠道上面傾斜，在後期徹底能夠進行對比。

還有一種狀況，咱們在投放廣告的時候，由於廣告的素材誤差引進來的人不是目標用戶，致使營銷預測浪費。假設咱們在三個渠道都投放了營銷素材，三個渠道質量的預估從原來都很高的預估率同時下降了，這就有理由懷疑是素材的問題，能夠進行素材上的調整。同時還能夠進行新增的預測，根據它的閥值進行自定義的實驗。咱們的跟蹤數據會反饋到模型訓練中作一個迭代的優化。

潛客挖掘這部分是不少人都關心的。一開始咱們並無想作這部分，之前一直在作廣告，經過廣告挖掘新增客戶。不管是教育行業仍是金融行業，都有這種需求。爲了獲取更多的客戶，有多是口口相傳，有可能要投一些預算作廣告。潛客預算有兩種模式，第一種是從其餘渠道拿到你認爲有潛在價值的用戶包，第二種是在互聯網大盤裏作一個預測，哪些人可能會是潛在用戶，而第二種方式只會在騰訊雲內部的廣告投放平臺上進行流通。咱們把挖掘潛客分紅兩類模型，一種是和留存新增相似的分類模型，一種是Lookalike。若是咱們以到站這種方式做爲目標，其實你不知道誰沒到站，你只知道到站的是誰，這裏是沒有負樣本的，因此咱們須要用Lookalike的方式。咱們對潛客的跟蹤有相應的解決方案，能夠跟蹤到潛客包轉化效果，從而進行進一步的運營嘗試。

下面爲你們介紹一下Lookalike，Lookalike是將其轉化爲一個二分類。以到站的方式爲例，到站的人咱們認爲他是種子用戶，但咱們不知道沒有到站的人是誰，只能在大盤裏將到站的用戶剔除掉，其餘的做爲一個盤，其中隨機抽出一部分做爲復例。最後進行模型訓練時，提取的就是咱們潛在的用戶包。這裏面臨的問題是什麼呢？負樣本中頗有可能包含正樣本即某些其實是潛在用戶的人，隨機性抽樣很難保證準確性。這裏咱們也經過標籤抽取的方式進行實驗，好比先對種子用戶進行畫像分析，發現他的教育程度高、教育關注度高、堅持度高，這類人就是潛在客戶。相反，關注度低、堅持度低的人，是否是必定就是負樣本呢？這種方式可能會致使整個模型泛化效果比較差。實際上，咱們是將種子用戶抽取出來一部分，放到負樣本混合後進行建模，在建模後就能夠看到負樣本中混合的種子用戶的機率分佈。

假如咱們發現它的機率分佈在0.42以上，咱們就有理由相信0.42%如下是比較高質量的負樣本，再將正負樣本拿進去作第二次真實的訓練。訓練的過程當中可能會遇到一些問題，咱們在教育行業用了800多維的維度，總體的維度有三四千。這裏面臨特徵拼接的問題，無論是留存、新增仍是潛客，或者是付費、流失場景包的模型，每個模型所須要的特徵是不同的，它們都是動態的、個性化的。這裏須要有一個特徵拼接的過程，咱們採用列存儲+SSD進行支持。

你們接觸的數據量比較少，當前幾千萬也是比較常見的。在整個大盤預測上，基礎是幾十例。咱們作一個排序，也能夠作一些抽樣的預測。好比抽取5000個用戶包，先預測一下這5000個用戶的大概P值，好比說預測出的P值是0.85，在實際預測時就進行閥值的提取，增強整個鏈路的優化。Lookalike的結果會直接與內部廣告平臺打通，並在廣告投放後從行爲變化跟蹤上觀察投放的效果。

在總體的方向上，咱們的預測從數據採集到特徵構建、模型集成，最後提供在線化的服務。在數據採集這部分，咱們會根據採集到的持續數據構建時序的特徵，同時也會將其用到模型中去。

這是一個總體技術架構介紹。由於這是一個數據產品，不像咱們常規理解的一個顯然的系統，它是各個環節進行協做，最後進行數據產品的輸出。首先咱們在作外部數據接入時，經過騰訊統一的網關STGW將數據放進來，以後經過DFS數據通道存放到消息隊列中。行爲數據基於第一方數據的安全，進行了相應的加密和脫敏，咱們要進行解密並對每一條數據進行質量的評分。這裏有一些質量評分的報警，若是數據能夠達到80分，如今一會兒變成了60分，咱們就須要和客戶溝通，是否是某個環節出了問題，由於它最終會致使模型效果較差，使用的體驗也會比較差。後面咱們會將接入進來的數據存放在TDW，各家的數據進行分表存儲，沒有融合在一塊兒。以後再將數據取出來進行計算，進行數據行爲概覽相應的指標分析以及行爲跟蹤。某一個用戶包的行爲變化跟蹤，就是在這裏面進行的。

最後咱們將這些統計結果、跟蹤階級寫入MySql，經過產品系統提供給用戶進行展示。這裏爲你們介紹一下咱們模型的作法。樣原本自兩個部分，一是行爲數據抽取出來，二是經過用戶接口提供或離線提供。咱們要融入大盤的特徵，大盤特徵是分級的，有些特徵是按月的、有些是按周的、有些是按天的、有些是實時的。咱們有不少節點計算每一個不一樣的特徵，固然有些特徵會放在一塊兒進行計算，將這些特徵放到Hbase中以加快它的訪問。

在具體應用時，客戶提取用戶包後進行模型的預測、分羣的洞察。咱們提取了用戶包，在預測的時候要先去提取存在Hbase裏面的實時數據，觀察它的實時特徵。實時特徵和離線特徵融合起來進行模型的預測訓練，在預測完成後，咱們要將一些特徵聚合起來造成畫像，最終在頁面上展現給你們。這些也是經過關係型數據庫進行產品的展示支持。

關於咱們產品的結構，首先是第一方的數據源。第一方的數據是客戶提供的行爲數據，加上內部畫像融合起來進行數據建模的支持。針對用戶上報的數據，咱們會自動生成標籤。內部數據也會經過相應的標籤工具，生成通用的行業、個性化、場景的標籤，以後再進行數據建模以及每一個用戶的落地，服務落地分爲用戶分羣、小步實驗、效果閉環。再往下是各個行業的應用，好比教育行業以及金融上面的反欺詐實踐。

第一方的數據完善程度和模型效果有相關性。若是第一方數據比較完善，能夠達到0.8到0.9的AUC，它的識別能力很是少。若是數據不太完善，只有50%或者60%的完善程度，AUC會在0.7到0.8之間。若是數據在百分之二三十，甚至沒有第一方數據，那麼AUC就在0.7左右。

下圖是教育類預測線上特徵庫，咱們將其分爲四類。每類從上往下是通用、行業、個性化、產品化這四類特徵。整個大盤的特徵維度有幾千維，教育行業咱們用到了800多維。

在第一方數據和安全機制部分，第一方數據，就是某一方面的數據，它對某一方面的模型有直接的影響。在作付費模型的時候，基礎數據APP行爲、付費轉化有着直接相關性；在作流失模型的時候，基礎數據和設備相關的信息、APP行爲的信息有直接相關性。第一方數據是客戶提供給咱們的，不管是金融、電商仍是教育，你們都會面臨同一個問題，提供數據會不會存在隱患，咱們會不會再將這些數據提供給別人。在安全方面咱們分爲三個等級，一是數據傳輸上進行加密的支持，即便傳輸的連接請求被劫持了，其餘人也不知道這個數據究竟是什麼數據，他只能看到一個密文。二是數據存儲。在存儲用戶數據的時候，按照分表物理存儲，其中不會有融合的問題，也不會將這些數據給另一個產品使用。三是數據的脫敏。咱們針對帳號支持加密，在內容上能夠簡單地理解爲，假如用戶A看了張老師的數學教程，在這個看的過程當中，咱們會將張老師的信息由客戶本身定義一個惟一的編號，將這個數學課程也定義成惟一的編號。在這些數據上傳以後，咱們拿到的只是編號，而不是張老師、數學這樣的具體信息。取得這個數據後就能夠進行模型上的建設，這裏咱們會將具體的用戶隱私數據過濾掉。

咱們的接入方式比較簡單，但也會存在必定的開發量。首先客戶將行爲的數據經過API提供給咱們，這裏的樣本有兩種方式。若是行爲數據比較全，咱們能夠直接進行操做。若是行爲數據不太全，或不太符合預期，咱們會讓客戶提供一個樣本。數據建模由咱們進行支持和處理，客戶能夠在產品系統上提取用戶包進行預測、實驗和效果的跟蹤。