譚安林:大數據在教育行業的研究與應用

本文來自騰訊雲技術沙龍,本次沙龍主題爲在線教育個性化教學技術實踐 算法

演講嘉賓:譚安林,騰訊高級工程師。2015年加入騰訊,8年互聯網從業經歷,從事大數據平臺與產品開發相關工做;前後參與廣告、金融等領域產品項目,目前負責行爲預測解決方案,幫助客戶盤活現有客羣、挖掘潛在高價值新客。目前咱們的產品包括:智能客服、大數據套件、騰訊移動分析、騰訊移動推送等。

今天我分享的是在騰訊雲在大數據對用戶行爲預測這個項目中,有關教育行業的一些實踐,但願能夠給你們帶來一些幫助。這一年咱們所作的是用戶行爲預測解決方案,針對教育行業定製一些行爲分析和預測,但願能夠幫助你們更好地藉助於數據。大數據對外開放有兩個模式。第一個模式是平臺技術,咱們會將大數據的能力開放到雲端給你們使用,好比騰訊大數據框架。第二個模式,咱們考慮到對內數據服務的能力模型,複製對外,爲你們提供一些有針對性的行業服務。數據庫

中國的網友有8億之多,98%的用戶羣使用移動互聯網。2017年始,月活的移動設備數量穩定在12億左右,新增紅利在漸漸消失。深挖存量的大盤用戶價值,有兩方面的考慮:一方面,咱們但願給整個大盤的存量用戶提供更有針對性的個性化服務、產品和推薦;同時針對各個行業,挖掘出大盤用戶的價值,爲行業帶來數據上的增加。後端

咱們之前作過智能推薦,在金融領域進行用戶逾期行爲預測的開放,在相關的反欺詐、風控場景中進行使用。在教育行業,隨着技術的發展以及產品的日漸豐富,整個教育行業的用戶增加是很可觀的。在將來幾年,教育行業會持續發力,咱們也但願能夠在這方面作一些事情。安全

用戶行爲預測幫你們解決的問題有哪些?從運營的角度考慮,獲取潛在客戶的環節,能夠幫你們瞭解誰是你的用戶,哪一個平臺適合作精準化營銷。獲取用戶以後,咱們會分析哪一個用戶價值比較高,更容易付費轉化。咱們能夠作這樣的識別,哪些用戶在必定的生命週期後會流失,咱們要作出流失預警以提早干預,而不是等到流失後再幹預,這時候已經來不及了。微信

咱們的產品運營會貫穿數據化的工做,從用戶引流開始,到判斷用戶來源渠道是好仍是壞、用戶的價值是高仍是低、提高轉化效果等。這就說明產品要作大,必然須要一些潛在的客戶,將當前用戶的盤子進一步擴大。其中涉及到的數據分析服務,主要能夠分爲三個方向:架構

  1. 新用戶的預測,即新增用戶。
  2. 留存用戶,即當前使用產品的用戶。
  3. 潛在用戶。

如今市場上的移動分析,也須要相應的工具。例如上面提到的三個方向,咱們要作數據化的運營,首先要明白運營指標、目的是什麼,從而把這個指標轉換成數據的指標。好比天天的轉化率,咱們會推進終端作數據的採集、APP的打點,將數據分析和數據開發經過相應的報表進行呈現。整個過程當中,無論是咱們自研仍是用外界的工具,好比雲盟和騰訊分析等,咱們均可以直觀地看到一個產品運營的狀況。可是要作深刻挖掘,判斷哪個用戶有價值,這確定是不夠的。咱們還要進行標籤的建設、模型的建設,判斷應該構建哪些標籤、哪些模型。最終構建的標籤和模型都須要落地去作數據產品,作到可視化,使咱們的運營、產品所見即所得,找到一個比較好的運營方向。框架

在整個實施過程當中,咱們也瞭解到,不管是教育行業、金融行業或其餘電商行業都面臨一樣的問題。數據在終端收集以後,咱們要落地到標籤系統,生成標籤。這個環節會很是困難,首先咱們要聯動不少崗位的同窗,從產品到終端開發、後端開發,以及數據分析、算法等等。你們的KPI是不一致的,運營同窗主要是作數據增加,後臺、終端同窗更多傾向於作出新功能和並維護舊功能的穩定性。這樣的數據需求提給他們,你說要打一個點,頗有可能很小的事情會作到一個月甚至是半年之後。這裏存在一個應用難的問題。工具

同時還有一個問題,對於新用戶或APP已經留存的用戶,基於咱們數據採集的方式獲取到的數據很是少。少到什麼程度?可能只有幾條。這些行爲的數據是付費轉化的數據,但你也不知道還須要哪些其餘的數據。這時數據不多,很難刻畫一個用戶是否是高價值,是否是容易被轉化。即便構建了標籤系統,還須要另外一批人去建模,須要四五我的或十幾我的作模型分析。選擇哪一個模型,判斷哪些特徵有效,模型構建完成之後還要去運營、落地、實驗,這時候還須要進行實驗的工具,整個過程是很複雜的。學習

用戶行爲預測項目的出發點在於標籤建設和模型建設這兩部分。化繁爲簡地說,咱們但願作到的是咱們來提供API,你們來上傳行爲數據,咱們再進行落地的簡化。你們不須要作標籤建設和模型建設,咱們能夠直接預測用戶的付費評分、轉化評分,以及一週內是否會流失的預警。在簡化落地這部分,若是你們聯動開發、算法、分析一塊兒作這個數據產品,須要20我的甚至更多。但在使用這個產品以後,只須要兩我的去作這件事。一我的開發API,接入數據;另一我的使用這個系統作運營。同時,咱們也提供小步實驗的工具。測試

下面我來介紹一下騰訊雲對於用戶的刻畫,主要分爲五個方面,包括人口屬性、社會屬性、用戶消費、用戶行爲、興趣偏好。你們在報考駕照時可能關注點不太同樣,有些人但願週期較短,有些人但願便宜一點,有些人但願教練不要罵人。咱們能夠經過標籤,刻畫不一樣用戶的分羣,針對這些分羣作一些定製化的營銷。特別是針對教育行業,咱們能夠把一個羣體分爲七天內流失可能性是高危、通常仍是低流失的不一樣分羣,進行一些有針對性的運營策略。接入的方式是圍繞用戶行爲進行接入,獲取用戶接入第一方的數據後提供模型,或從行爲中抽取樣本再進行建模。在這個過程當中,系統會提供一鍵預測的功能,客戶直接在系統上進行操做便可。預測出的結果能夠截取下來進行本身的運營實驗,咱們最後也會根據用戶行爲進行跟蹤。在市場上有一些行爲跟蹤的產品,它們要求的是效果反饋,須要有一些KPI。咱們根據純粹上報的KPI作變化跟蹤,直觀地看出哪一個策略好、哪一個策略差。

剛剛提到三個方面的服務,第一方面是對留存用戶,第二方面是對新增用戶,第三方面是幫助你們挖掘潛在用戶。先來看一下留存用戶,也就是如今已有的用戶,這種場景比較好的地方就是第一方數據相對較多,咱們的模型會比新增用戶的模型更好。主要分爲如下四個部分,一是數據管理,數據管理不只是第一方數據,也包括互聯網大盤的脫敏數據,咱們會有針對性地進行融合。第一方的數據是註冊信息、設備信息、行爲信息,好比用戶登陸的時間、瀏覽的頁面。這些信息接入進來後,咱們會進行概覽性的分析,好比天天的PV、UV分別是多少。同時咱們也會對每一條數據進行質量評估,由於每個字段的完善度都會影響模型的效果,若是完善的話,模型將在0.8以上;若是不完善則會在0.7到0.8;若是特別差的話,模型就不能被使用。

第二是留存預測。咱們能夠提取一段時間內的用戶包進行預測,預測模型能夠是多種,根據多種需求能夠自定義、也能夠進行增長,當前的預測主要是流失、付費、逾期還款等。在預測出來後會出現一個機率的分值,能夠根據機率分值將它自定義分紅幾個分組,也就是分羣。例如在付費的模型中,付費轉化率高的人,咱們稱爲高付費,次之是較高付費。咱們能夠在這個基礎上再進行分羣的洞察,在這個分羣洞察市場上有不少移動分析的軟件,可是它們提供的畫像頗有多是通用型的,甚至對於某個羣體是沒有顯示度,也就是沒有顯著性的。咱們針對不一樣的行業,特別是教育行業,有着本身的行業定製標籤,好比教育關注度、教育堅持度這樣一些畫像,可以有效地展現其中的羣體形態。若是你發現這部分人羣有怎樣的畫像特色,在以後進行廣告投放時能夠諮詢一下廣告投放平臺,支不支持這些標籤的投放。若是能夠的話,就能夠實現精準投放。

再來介紹一下咱們分羣所用的標籤。我展現出來的是兩個畫像,一個是教育關注度,一個是教育堅持度。首先介紹一下圖表,圖表上207這個數字,表示的是TGI的相對顯著性,數字越高表示這個特徵和它所對應的分子越大,也就是正相關性越高。這個數字大於100表示正相關,小於100就是負相關,數字越小就表示負相關越大。教育關注度越高的這些人付費意願就會更強。教育關注度就是根據客戶在大盤教育類的諮詢,以及周邊產品的關注程度聚合出來的畫像。

再來看教育堅持度,它的表現也是同樣的,越能堅持的人,越願意付費。在這裏教育堅持度咱們怎麼刻畫的呢?他持續使用大盤裏某類或所有的教育產品,這種持續的時間投入,咱們稱之爲教育的堅持度,這是由不少特徵聚合出來的畫像。

剛剛看到的是行業的標籤,咱們構建的標籤分紅了通用標籤、行業標籤、場景標籤以及個性化標籤。這裏是通用標籤,通用標籤就是遊戲的沉迷度,好比說在遊戲上消耗的時間和週期,能夠根據這些行爲進行刻畫。咱們發現它的顯著性和教育關注度不同,越沉迷遊戲的人,付費的可能性就越低。在自我驅動力上面,他會本身驅動本身作一些相關的學習、收藏,屬於比較有自發性行爲的數據。這種數據能夠刻畫出越上進的人,越可能會付費。

這是一個實驗項目的跟蹤展現,上面是測試數據,不是真實的數據。咱們的實驗包括兩種實驗,一是人羣對比,將較高付費的人羣及高付費人羣作同一個策略實驗。咱們能夠打電話營銷、發短信營銷,甚至能夠建羣爲他們進行鍼對性的服務。在這些方式下,能夠得出哪一種人羣轉化率更高,哪一種策略更適合哪一個人羣。第二是策略對比,針對較高付費的羣體,咱們進行剛剛三個策略實驗,就能夠看出哪一個策略對這部分人的效果更好,在具體的運營實驗上花更少的成本,去體驗整個實驗的效果。

第二個方向是新增用戶。新增用戶爲何放在留存用戶後面講呢?由於這部分能夠得到的數據更少。咱們能夠獲取到留存用戶的一些行爲數據,但新增用戶可能只有手機號、設備環境信息和相應的價值信息。咱們能夠作到的是新增預測,提供單獨的API服務。它的應用場景主要是有兩個點,一是渠道質量的預估,爲何是預估呢?咱們在運營中會面臨一個問題,投放廣告、投放營銷預算應該選擇哪一個渠道?評估一個渠道的好與壞有兩種方式,一是諮詢別人,這種方式並不可靠。第二是進行實驗,在一週、兩週、一個月以後,觀察這個渠道的付費轉化率是多少、流失狀況是多少。咱們對模型進行了預測,這時就能夠把渠道的質量預估提早,若是預測出某個渠道的質量很是差、轉化效果也不好,這時就能夠把營銷預算往好的渠道上面傾斜,在後期徹底能夠進行對比。

還有一種狀況,咱們在投放廣告的時候,由於廣告的素材誤差引進來的人不是目標用戶,致使營銷預測浪費。假設咱們在三個渠道都投放了營銷素材,三個渠道質量的預估從原來都很高的預估率同時下降了,這就有理由懷疑是素材的問題,能夠進行素材上的調整。同時還能夠進行新增的預測,根據它的閥值進行自定義的實驗。咱們的跟蹤數據會反饋到模型訓練中作一個迭代的優化。

潛客挖掘這部分是不少人都關心的。一開始咱們並無想作這部分,之前一直在作廣告,經過廣告挖掘新增客戶。不管是教育行業仍是金融行業,都有這種需求。爲了獲取更多的客戶,有多是口口相傳,有可能要投一些預算作廣告。潛客預算有兩種模式,第一種是從其餘渠道拿到你認爲有潛在價值的用戶包,第二種是在互聯網大盤裏作一個預測,哪些人可能會是潛在用戶,而第二種方式只會在騰訊雲內部的廣告投放平臺上進行流通。咱們把挖掘潛客分紅兩類模型,一種是和留存新增相似的分類模型,一種是Lookalike。若是咱們以到站這種方式做爲目標,其實你不知道誰沒到站,你只知道到站的是誰,這裏是沒有負樣本的,因此咱們須要用Lookalike的方式。咱們對潛客的跟蹤有相應的解決方案,能夠跟蹤到潛客包轉化效果,從而進行進一步的運營嘗試。

下面爲你們介紹一下Lookalike,Lookalike是將其轉化爲一個二分類。以到站的方式爲例,到站的人咱們認爲他是種子用戶,但咱們不知道沒有到站的人是誰,只能在大盤裏將到站的用戶剔除掉,其餘的做爲一個盤,其中隨機抽出一部分做爲復例。最後進行模型訓練時,提取的就是咱們潛在的用戶包。這裏面臨的問題是什麼呢?負樣本中頗有可能包含正樣本即某些其實是潛在用戶的人,隨機性抽樣很難保證準確性。這裏咱們也經過標籤抽取的方式進行實驗,好比先對種子用戶進行畫像分析,發現他的教育程度高、教育關注度高、堅持度高,這類人就是潛在客戶。相反,關注度低、堅持度低的人,是否是必定就是負樣本呢?這種方式可能會致使整個模型泛化效果比較差。實際上,咱們是將種子用戶抽取出來一部分,放到負樣本混合後進行建模,在建模後就能夠看到負樣本中混合的種子用戶的機率分佈。

假如咱們發現它的機率分佈在0.42以上,咱們就有理由相信0.42%如下是比較高質量的負樣本,再將正負樣本拿進去作第二次真實的訓練。訓練的過程當中可能會遇到一些問題,咱們在教育行業用了800多維的維度,總體的維度有三四千。這裏面臨特徵拼接的問題,無論是留存、新增仍是潛客,或者是付費、流失場景包的模型,每個模型所須要的特徵是不同的,它們都是動態的、個性化的。這裏須要有一個特徵拼接的過程,咱們採用列存儲+SSD進行支持。

你們接觸的數據量比較少,當前幾千萬也是比較常見的。在整個大盤預測上,基礎是幾十例。咱們作一個排序,也能夠作一些抽樣的預測。好比抽取5000個用戶包,先預測一下這5000個用戶的大概P值,好比說預測出的P值是0.85,在實際預測時就進行閥值的提取,增強整個鏈路的優化。Lookalike的結果會直接與內部廣告平臺打通,並在廣告投放後從行爲變化跟蹤上觀察投放的效果。

在總體的方向上,咱們的預測從數據採集到特徵構建、模型集成,最後提供在線化的服務。在數據採集這部分,咱們會根據採集到的持續數據構建時序的特徵,同時也會將其用到模型中去。

這是一個總體技術架構介紹。由於這是一個數據產品,不像咱們常規理解的一個顯然的系統,它是各個環節進行協做,最後進行數據產品的輸出。首先咱們在作外部數據接入時,經過騰訊統一的網關STGW將數據放進來,以後經過DFS數據通道存放到消息隊列中。行爲數據基於第一方數據的安全,進行了相應的加密和脫敏,咱們要進行解密並對每一條數據進行質量的評分。這裏有一些質量評分的報警,若是數據能夠達到80分,如今一會兒變成了60分,咱們就須要和客戶溝通,是否是某個環節出了問題,由於它最終會致使模型效果較差,使用的體驗也會比較差。後面咱們會將接入進來的數據存放在TDW,各家的數據進行分表存儲,沒有融合在一塊兒。以後再將數據取出來進行計算,進行數據行爲概覽相應的指標分析以及行爲跟蹤。某一個用戶包的行爲變化跟蹤,就是在這裏面進行的。

最後咱們將這些統計結果、跟蹤階級寫入MySql,經過產品系統提供給用戶進行展示。這裏爲你們介紹一下咱們模型的作法。樣原本自兩個部分,一是行爲數據抽取出來,二是經過用戶接口提供或離線提供。咱們要融入大盤的特徵,大盤特徵是分級的,有些特徵是按月的、有些是按周的、有些是按天的、有些是實時的。咱們有不少節點計算每一個不一樣的特徵,固然有些特徵會放在一塊兒進行計算,將這些特徵放到Hbase中以加快它的訪問。

在具體應用時,客戶提取用戶包後進行模型的預測、分羣的洞察。咱們提取了用戶包,在預測的時候要先去提取存在Hbase裏面的實時數據,觀察它的實時特徵。實時特徵和離線特徵融合起來進行模型的預測訓練,在預測完成後,咱們要將一些特徵聚合起來造成畫像,最終在頁面上展現給你們。這些也是經過關係型數據庫進行產品的展示支持。

關於咱們產品的結構,首先是第一方的數據源。第一方的數據是客戶提供的行爲數據,加上內部畫像融合起來進行數據建模的支持。針對用戶上報的數據,咱們會自動生成標籤。內部數據也會經過相應的標籤工具,生成通用的行業、個性化、場景的標籤,以後再進行數據建模以及每一個用戶的落地,服務落地分爲用戶分羣、小步實驗、效果閉環。再往下是各個行業的應用,好比教育行業以及金融上面的反欺詐實踐。

第一方的數據完善程度和模型效果有相關性。若是第一方數據比較完善,能夠達到0.8到0.9的AUC,它的識別能力很是少。若是數據不太完善,只有50%或者60%的完善程度,AUC會在0.7到0.8之間。若是數據在百分之二三十,甚至沒有第一方數據,那麼AUC就在0.7左右。

下圖是教育類預測線上特徵庫,咱們將其分爲四類。每類從上往下是通用、行業、個性化、產品化這四類特徵。整個大盤的特徵維度有幾千維,教育行業咱們用到了800多維。

在第一方數據和安全機制部分,第一方數據,就是某一方面的數據,它對某一方面的模型有直接的影響。在作付費模型的時候,基礎數據APP行爲、付費轉化有着直接相關性;在作流失模型的時候,基礎數據和設備相關的信息、APP行爲的信息有直接相關性。第一方數據是客戶提供給咱們的,不管是金融、電商仍是教育,你們都會面臨同一個問題,提供數據會不會存在隱患,咱們會不會再將這些數據提供給別人。在安全方面咱們分爲三個等級,一是數據傳輸上進行加密的支持,即便傳輸的連接請求被劫持了,其餘人也不知道這個數據究竟是什麼數據,他只能看到一個密文。二是數據存儲。在存儲用戶數據的時候,按照分表物理存儲,其中不會有融合的問題,也不會將這些數據給另一個產品使用。三是數據的脫敏。咱們針對帳號支持加密,在內容上能夠簡單地理解爲,假如用戶A看了張老師的數學教程,在這個看的過程當中,咱們會將張老師的信息由客戶本身定義一個惟一的編號,將這個數學課程也定義成惟一的編號。在這些數據上傳以後,咱們拿到的只是編號,而不是張老師、數學這樣的具體信息。取得這個數據後就能夠進行模型上的建設,這裏咱們會將具體的用戶隱私數據過濾掉。

咱們的接入方式比較簡單,但也會存在必定的開發量。首先客戶將行爲的數據經過API提供給咱們,這裏的樣本有兩種方式。若是行爲數據比較全,咱們能夠直接進行操做。若是行爲數據不太全,或不太符合預期,咱們會讓客戶提供一個樣本。數據建模由咱們進行支持和處理,客戶能夠在產品系統上提取用戶包進行預測、實驗和效果的跟蹤。

Q/A

Q:剛纔提到的教育堅持度,若是與某個變量因子相反關係,說明這我的的基礎比較薄弱,是嗎?

A:這不必定,咱們也作過這方面的分析。咱們發現有些人學歷很高,他們仍是堅持去學習,這徹底是因人而異的。因此這部分也要看學歷,學歷也是一個因子,但學歷的因子反而沒有這個指標顯著。

Q:關於特徵的部分,請問能夠公開一些特徵嗎?

A:若是合做到必定深度是能夠的,可是如今不方便透露。咱們的特徵也不少也比較細,像通用特徵能夠通用到各個行業,沒有行業的屬性在裏面。

獲取更多詳細資料,請戳如下連接:
大數據在教育行業的研究與應用-譚安林.pdf

問答
大數據對人工智能深度學習有何影響?
相關閱讀
王永慶:技術創新改變教育將來
郭卓惺:互動課堂的搭建實例及相關領域應用 
楊婷:騰訊雲在線教育解決方案分享

此文已由做者受權騰訊雲+社區發佈,原文連接:https://cloud.tencent.com/dev...

歡迎你們前往騰訊雲+社區或關注雲加社區微信公衆號(QcloudCommunity),第一時間獲取更多海量技術實踐乾貨哦~

相關文章
相關標籤/搜索