是新朋友嗎?記得先點藍字關注我哦~前端
18年底19年初的北京寒冷異常,網上說是近十年來最冷的冬天。與此相映的,是互聯網行業的狀況。但酷寒並不能澆滅每一個有夢想的互聯網人心中的光亮。
18年初小諾因沒有機會作到熱愛的核心策略,離開了那家他心愛的搜索大廠和搜索引擎後,去一家生鮮獨角獸公司作數據可視化工做。一年後的19年初,小諾所在部門被新來的一幫人替換,所謂一朝天子一朝臣,原來的人都陸續離開了。
小諾呢,一直想往搜索/推薦策略發展,但作策略的起點和要求比較高,小諾沒有經驗。而數據pm由於如今缺口較大,因此一年經驗也有不少機會。他不停的糾結,最後決定數據和策略都準備都投,有機會就去面試。
若是策略的實在進不去,就還作數據先生存再追求理想,畢竟生活是曲折前進的,有時咱們須要「曲線救國」。
他讀了一些書籍,《數據產品經理修煉手冊》《數據產品設計》《數據產品經理》《走進搜索引擎》《推薦系統實踐》等,爲面試作準備。面試
hi,你們好,這裏是暴躁策略信徒——小諾。
不少朋友跟小諾說:
「我看它的jd(職位描述)上啥都沒說明白,我怎麼準備面試啊?」
「我要轉方向作xx產品經理,可我沒經驗人家不要我,這可咋整啊?」
「我學校普通,大廠卡我學歷,腦殼嗡嗡的……」
今天咱們不講面試的理論,就拿個實際經從來說吧~算法
本文分十個部分。分別是:
引言(蝦扯蛋)
1、崗位分析和試前準備
2、埋點設計數據採集
3、數據倉庫數據存儲
4、數據指標體系
5、標籤和特徵屬性
6、推薦策略和算法
7、AB測試實驗設計和策略效果
8、運營分析和迭代
結語數據庫
首先,咳咳咳……老規矩,先扯會淡……
有天晚上小諾接到了遠在大連讀書的表弟小敏的電話,接起電話,他說「哥,你能幫幫我嗎?(b站裝機猿原味,不懂請自行百度)」
小諾「不幫!」
小敏「哥,是這麼回事。我下午和同窗去參加一個金融公司的面試,遇到一個咱們學校的妹子,她先面試完事走的。我面試完一查那公司。
才發現這公司半年前由於ffjz被政府通告了。我得找到那妹子告訴她,怕她被騙了。你能幫幫我嗎?」
小諾「不能,找不到,我洗澡去了。」
小敏「哥,大神,大佬,BAT的但願!幫幫我唄。」
小諾「咳咳,你那是想幫她嗎,我都很差意思點破你!來講說你知道她什麼信息。」後端
小敏「我聽到面試官叫她王二丫。」
小諾「你有全校名單沒,我記得你是學工部學生助理吧。」
小敏「有的有的,最近6屆的都有,但只有班級姓名,沒有聯繫方式。」
小諾「不要緊,學校本科大四專科大三才能找工做,因此你在15,16級的名單裏面搜索她名字的拼音。看看有沒有重名。」
小敏「好的!哥,我看了,沒有重名。」
小諾「很好,看看她是什麼專業班級的。」
小敏「日語軟件15002。」安全
小諾「我們學校的班級都有用qq羣,你用這個作關鍵詞前面加學校簡稱搜索一下,看能不能找到,日語軟件四個字能夠取兩個字搜索。」
小敏「哥!我搜到了!好激動。」
小諾「先別高興,他們班級羣外人確定加不上。」
小敏「還真是,哥你料事如神。」
小諾「快別拍馬屁了,你找他們羣主,加一下,加的時候說你是同校什麼專業的xxx。」
小敏「好的!加上了呢!」
小諾「你把事情簡單和對方說一下,問她班裏是否是有王二丫,再請她幫忙轉告。」
小敏「妥了!謝我英俊瀟灑,風流倜儻,多才多藝……的哥!」
小諾「滾吧滾吧……」網絡
那麼上面的故事和下面的面試準備有啥關係呢,咱們接着往下看。架構
有一天,小諾看到一個作新聞資訊的半傳統十八線知名互聯網新媒體公司,在招「畫像和推薦策略產品經理」。如下是崗位描述。
工做職責
1.負責內部數據平臺的產品建設,需求梳理,迭代推動和口徑梳理;
2.負責新聞客戶端用戶分類畫像體系研究和搭建,優化內容標籤和個性化推薦策略;
3.基於數據分析和數據邏輯,驅動產品和業務發展。併發
注意:如下看到的均是作策略以前且是面試前的準備,也就是說在徹底沒有實踐經驗前,經過知識儲備去分析的準備。雖而後期發現有不少和實際有些出入的地方,但我併爲再優化,爲的是讓讀者瞭解如何爲跨入一個新的產品方向作準備。app
經過這個jd咱們能夠知道須要具有哪些方面的知識。列舉一下:
數據方面:數據埋點和採集,數據倉庫和存儲,數據指標體系設計,數據可視化,數據分析和運營。
畫像和推薦:用戶分類體系設計,用戶畫像,推薦策略和算法。
產品經理:基本素養。
大概須要以上這些方面的知識,咱們不會全都去負責,可是各方面的知識都要懂,畢竟要看到森林也要看到樹木。
面對如此多的方面咱們應該如何去準備,須要咱們先了解這個崗位要作的產品的目標。這個產品是一個新聞app客戶端。它有新聞,視頻,廣場,我這四大模塊。能夠瀏覽或者聽新聞,視頻,直播,fm,小說,文章,還具備很淺的社交功能。
這個崗位的主要職責是構建和優化用戶和內容標籤體系,同時優化個性化推薦策略。
咱們整理下須要學習的知識:
其實到這裏咱們發現,針對面試的分析準備,就和引言的故事同樣,從已知的信息出發,一點點分析,一點點準備,串成鏈路。
做爲一個小白,不懂就學,因此咱們要對上面涉及到的全部知識進行學習,但次日就要面試,一天時間掌握大量知識不太現實。咱們產品最擅長的就是定需求的優先級,那麼根據崗位的核心要求,咱們先了解畫像推薦和策略的知識,再看數據的知識。
由於熱愛搜索和推薦,在此以前小諾看了不少文章和書籍,已經有了一些知識儲備,只是沒有去考慮過在一個新聞app上如何實踐,因此他須要的是把儲備的知識鏈路打通。按照上面列的鏈條去把每一環搞明白。
不少小白產品經理,總和小諾說:我看了一週的書,以爲收穫不大,看了一個月三個月書了,發現知識仍是連不起來,我是否是不適合作產品。其實不是這樣的,知識積累是一個長期的過程,小諾深深的記得,剛開始作產品的時候,天天通勤時間4小時,小諾會在地鐵上看書,可是半年了發現知識仍是不成體系,但仍是繼續堅持,直到一年後才慢慢有了思路,才能系統的去思考一個問題。
埋點方式
通常來講,數據來源有產品上埋點得到的用戶數據如uv和pv;有業務系通通計的數據如交易數據;有爬蟲從其餘第三方平臺或網站爬取的數據;有手持終端得到的數據等。
這裏須要作的是在app上設計埋點方案,當下埋點通常有三種方式:代碼埋點,可視化埋點,全埋點。每一種都有優缺點,代碼埋點比較靈活但費人工,全埋點須要較大的存儲成本但較全面。同時埋點也分爲前端埋點和後端埋點,後端埋點指的是獲取在app上操做以外的數據,好比經過連接下載的數量。
key-value方式
瞭解得知此app目前用的是代碼埋點。在設計埋點方案時,獲取的指標要明確,層級要分明獨立。好比我從梁老師《數據產品經理修煉手冊》中學習的這種現下流行的埋點方式:key-value。能夠按照功能-頁面-位置-操做的層級關係去肯定。
同時須要經過埋點得到的指標數據應當是爲目標服務的,即目的要明確,要結合業務邏輯、運營體系去設計埋點方案。最後埋點方案應該考慮複用性,避免應後期也許變更引發方案變化高強度增長研發的工做量。
通常一個埋點方案能夠包含如下題頭:功能,用戶行爲,事件類型,事件id,key,value,描述,備註。
事件類型分爲:曝光事件,點擊事件,頁面事件。
好比作ab測試時有A和B兩個活動頁面,每一個頁面進去都有軍事和歷史兩個分類,咱們要統計兩個分類的點擊事件。這裏爲了提升複用性能夠採用樹狀結構,即事件id是「活動按鈕」,二叉樹分爲「頁面」和「入口」,「頁面」的二叉樹分爲「A頁面」和「B頁面」,「入口」的二叉樹分爲「歷史」和「軍事」,這樣即便後期增減活動,也只須要增長或者刪除其中一部分分支。
指標定義
這裏咱們要明確須要統計的數據,會涉及到如何定義指標。
定義指標時含義要準確,好比統計獨立用戶數時,是否包含訪客,若是包含,由於訪客沒有登陸,咱們統計的就會是獨立設備數。
再好比頁面訪問次數,若是同一個頁面刷新一次是否該統計。再好比下單金額要統計優惠前仍是優惠後。
如此精確就像是咱們要統計的是」今天12點以後從樹上掉下來的方形的黃顏色的帶葉子的大蘋果」。
咱們採集的數據可能會存在數據缺失,數據冗餘等問題,須要通過數據清洗。好比缺失數據要考量是否能夠補,冗餘數據是否能夠刪。還有數據的歸一化、離散化、無量綱處理等,這裏不作詳細介紹,具體的能夠百度查看相關文章。
由於咱們要從源頭保證數據質量,數據來了咱們要放到數據倉庫裏,數據倉庫會集成來自不一樣數據源的數據,且是面向主題的,好比根據公司業務線進行劃分。
這裏咱們簡單說一下架構:
最底下是採集存儲層:會有數據採集、容錯、解析引擎。數據會分紅結構化、半結構化、非結構化的數據。這裏還要用到集羣協調,分佈式存儲,高併發響應。
再上去是數據計算層:分ods,bds,ids,分別是原始數據,基礎數據,指標數據。這裏咱們也要作對數據抽取,轉換,加載,包括了數據清洗。
再上去是數據模型層:這裏有許多分析模型,算法模型,還有標籤庫。
再上去是數據服務層:這裏能夠是可視化平臺,能夠包括指標數據,用戶畫像,標籤集合,數據報表等。
再上面是數據訪問層:好比開放接口,數據庫查詢。
指標組成
我以爲指標是一個可以定量反映事實的標準。
通常指標由維度、定義和度量單位組成。維度就像是從不一樣角度劃分對象的定語,好比蘋果從顏色維度能夠分成黃綠,從形狀維度能夠分方圓,從體積維度能夠分大中小。度量單位就是一個指標的單位,好比「元」「個」「斤」。舉個例子:自營(維度)銷售額(定義)萬元(度量單位)。
需求瞭解
在搭建指標體系前咱們須要先了解需求,瞭解業務。好比你的需求方是公司的營銷部門,他們須要看到會員用戶的一些指標,發現會員用戶的特色和現狀,經過數據來指導業務,針對性的作一些營銷活動或者拜訪回訪。
那麼咱們須要瞭解會員機制,是須要消費夠必定金額,或者連續多少天下單才能成爲會員,亦或是其餘方式?成爲會員後會不會在什麼狀況下失去會員身份?
再考慮可以反映會員用戶狀況的指標有哪些,好比會員用戶比例及變化,會員用戶消費狀況和普通用戶的比較,具體的指標須要咱們和業務部門去共同商定。
體系搭建
對於指標體系的搭建,工做中須要根據公司業務狀況分類,好比分紅下單,倉儲,配送,客服,營銷等分類。
同時在每一個分類中,也應按照高優,區間,低優將指標分列。高優指標即指標數值越高越好;低優指標數值越低越好;區間的分固定和浮動,浮動的好比存儲溫度,在0-2攝氏度就是安全範圍,太高或者太低就須要預警;固定的須要固定在一個數值。
對指標按照業務線或者其餘方式分類有助於按照模塊構建指標體系,對指標按照高低目標分類有利於以後的可視化設計以及數值預警。
那麼什麼是標籤呢,我理解的標籤是爲了定義出對象的特色,用一個個標籤讓對象的骨肉更加清晰,從而讀懂它。
通常對於用戶畫像會從6個方面來進行,基本信息,興趣愛好,行爲特色,消費信息,社交網絡,心理特徵。
標籤分類
標籤在數倉中從下到上分爲數據源,事實標籤,模型標籤,高級標籤。
事實標籤也能夠說是指標標籤,好比用戶瀏覽時長,各時段在線用戶數等。
模型標籤好比用戶屬性,興趣愛好,內容偏好,活躍度等。
高級標籤好比用戶分級,流失模型標籤。
標籤結構
咱們爲用戶或者內容打標籤是爲了對其分類,以便更好的瞭解這個集合中對象的特色,從而針對性的作精細化的運營。也可爲信息流推薦打好基礎。
標籤體系分爲結構化,半結構化,非結構化三種。
結構化的標籤一二三級層級和所屬分明;
半結構化的層級結構比較分明;
非結構化的標籤體系諸如廣告推廣時設定的關鍵詞。
標籤規則
標籤的命名應該短小易懂,具備表明性,而且無歧義。
標籤的體系設計應該作到標籤和標籤相互獨立,而且徹底窮盡。
同時標籤粒度也要有所把握,粒度太粗沒法區分用戶,粒度太細集合樣本較少、太過於個性同時標籤體系也會太過龐大。
對於此新聞app,在首頁它有幾種搜索途徑:有搜索框輸入關鍵詞主動搜索;有軍事科技歷史娛樂社會等的分類垂直搜索;有信息流個性化推薦;還有訂閱形式的推送。
我認爲它的標籤體系能夠設立爲「分類——主題——關鍵詞」的三級(多級)模式,同時關鍵詞可能要相對獨立。
分類指的是「歷史,軍事,娛樂,社會,科技」等等這些;主題的話好比歷史分古代史近代史,也分中國史外國史;關鍵詞的話好比用戶愛看的是關於歷史-近代史-張學良的文章。
結語
今天小諾先講到這裏,感謝你們關注!
下期咱們會講到你們最喜歡的:推薦策略和算法,ab測試和效果評測,運營分析迭代。
下期的引言還會帶來我曾在搜狗一面遇到的邏輯推理題。
最後我想說,都說互聯網遇到了寒冬。若是你是有多年經驗的老產品,請你像看到過去的本身那樣幫助新人。若是你是四處碰壁的新產品,請你在歷經坎坷時也別忘記最初的夢想。
這裏是:
一個數據人的自留地。
一個有溫度的產品社區。
一個數據人的自留地是一個助力數據人成長的你們庭,幫助對數據感興趣的夥伴們明確學習方向、精準提高技能。掃碼關注我,帶你探索數據的神奇奧祕