做者介紹
@edanpython
前商業數據分析師,現 TMD 數據產品經理。面試
指望和數據小夥伴一塊兒作些有意思的事情~正則表達式
01 什麼是消費者洞察?session
隨着社會的發展,中國消費者所處環境在變,消費觀念也在變:你們從應付生活轉變爲經營生活、享受生活。在急劇變化的市場環境下,影響消費品牌成長的因素不少,其中深入理解消費者,並對消費者心理、行爲變化作出及時的反應是關鍵的一環,這也就是一般你們所說的 「消費者洞察」。數據結構
咱們能夠借用 Laddering 模型理解消費者洞察:「從產品屬性、功能性利益、情感性利益、價值觀等不一樣層面來分析消費者的不一樣層次的偏好和動機,瞭解贏得他們好感的因素」。框架
在互聯網領域,消費者洞察(即用戶調研)是產品工做中重要的一環。只有深刻理解用戶的行爲習慣及背後的的訴求,才能爲用戶帶來好的用戶體驗。機器學習
一樣在營銷領域,消費者洞察也是全部營銷動做的起點,產品定位環節須要挖掘目標羣體在不一樣場景的訴求,產品推廣環節須要找到匹配消費訴求的溝通話術觸達消費者,已經投入市場的產品須要經過口碑分析來診斷產品的健康度。ide
02 基於文本大數據的消費者觀察學習
在互聯網時代來臨以前,消費者洞察基本都是經過問卷結合用戶訪談的形式展開,這種形式的好處在於,想問什麼就能夠問什麼。可是問題也很明顯,樣本量少,用戶表達不必定真實。大數據
而在互聯網時代,網上已經有大量消費者的表達,如微博、電商評論、論壇帖子(好比寶寶樹),甚至是一些像醫療專業領域,也有如好大夫等問診平臺承載用戶表達。這給消費者洞察提供了更優質的 「土地」 :
1)樣本量更大。不像過去問卷調研,幾百個樣本都已經很大,線上可供研究的消費者是億級別;
2)場景更豐富。好比消費者用薯片來炒菜這樣的場景,是很難在問卷中被問出來的;
3)表達更真實。不是被問題引導出來的回答,而是消費者本身說的。
因此圍繞着線上文本展開的消費者洞察已被品牌方普遍承認。
03 從文本數據到洞察結果
下面以母嬰行業的紙尿褲品類爲例,給你們介紹介紹如何基於文本大數據作消費者洞察。
1)肯定目標羣體,抓取相關數據
在紙尿褲市場,雖然用戶是 0-3 歲的寶寶,但真正的消費者是媽媽羣體,並且媽媽們從孕期開始就會關注紙尿褲,因此孕期媽媽到寶寶 1 歲的媽媽是咱們的目標分析用戶。爲了獲取目標用戶的線上言論,筆者經過爬蟲技術從相應的母嬰論壇去抓取媽媽們的數據,這些數據包括基礎信息的數據、文本相關數據(帖子、問答)、媽媽關注關係的數據,以下圖。
2)經過打標籤,把文本數據結構化
好比 「花王紙尿褲實在有點厚」,這句話中包含 「花王紙尿褲」、「有點厚」 兩個信息維度。如何提取這兩個信息維度呢?因而筆者就構建了包含不一樣維度信息的關鍵詞詞庫,若是句子中有相應的關鍵詞,那麼這個句子就有對應的維度標籤。
舉個例子:假設已經構建好的詞庫中【紙尿褲品牌-花王】維度包含三個關鍵詞:花王、kao、妙而舒。由於 「花王有點厚」、「kao 的紙尿褲有點厚」、「妙而舒有點厚」 這三句話都匹配上了花王維度中某個關鍵詞,因此都包含花王品牌這個信息點。具體如何實操,下面咱們詳細展開~
(1)構建詞庫
(a)經過專業信息初步搭建詞庫框架。好比構建紙尿褲領域的詞庫,能夠先經過電商網站抓取商品相關的信息。如下是京東上能夠抓取的幫寶適的品牌信息、功能特色信息。結合一些行業經驗,筆者初步梳理出點詞庫框架,並將這些官方的表達做爲初步的詞庫維度內容。
(b)應用 NLP 分詞技術,對詞庫作擴展補充。隨機選取必定量的文本,可採用 python 軟件中的 jieba 包對每一個句子作分詞。按照詞頻的順序從高到低,把關鍵詞放入到對應的維度中。已有的分類作關鍵詞補充便可;若是沒有的維度則添加新維度,造成相對完成的詞庫。
爲了更靈活的適配消費者表達,能夠採用正則表達式的模式替代普通的關鍵詞。詞庫落地後的具體形式以下表,其中,tagname 表示詞的維度名,keywords 是關鍵詞的正則表達。
(c)人工抽查樣本數據,審覈詞庫覆蓋率&準確率。隨機抽取 1000 條文本,遍歷看完每一條文本,並對其中沒有命中的關鍵詞作補充,匹配錯的關鍵詞作限定修改(小技巧:藉助軟件高亮已經匹配的詞,可大大提高審覈效率)。
覆蓋率=文本中全部關鍵信息點被覆蓋/抽查的文本數量;
某維度準確率=對應維度正確標註的文本數量/命中該維度的文本數量。
當覆蓋率>90%,詞庫總體準確率>90%,便可將詞庫投入使用。
(2)經過詞庫對文本打標籤;
寫一個 python 小腳本,輸入詞庫,輸出打標後的數據。基本步驟以下:
輸入文本文件 -> 基於必定的規則對每一個獨立的文本作短句切分(好比按照句號/分號)-> 基於詞庫對每個短句作打標 -> 造成標籤數據。
具體結果形式以下表(sessionid 即切分的短句 id),基於標籤數據就能夠作維度的交叉分析。
(3)情感識別
識別情感主要經過機器學習模型作情感分類。基於詞庫打標,已經能夠從文本中捕捉出對應的「實體-特徵」(好比「花王-透氣」),咱們進一步抽取必定量的數據作情感人工標註(負面/正面/中性)。最後再交由模型去訓練,並對更多的文本數據作情感預測。
3)數據分析
文本數據結構化後,筆者就能夠對消費者進行挖掘分析。下面以品類市場的需求分析、品牌認知的差別分析爲例子展開說明。
(1)品類市場的的需求分析
分析紙尿褲品類文本對不一樣需求的說起量,和不一樣需求的正向言論比例,能夠發現 「紅屁屁/過敏」 是如今消費者認爲很是重要,且並無很好被知足的需求點。根據需求重要度、需求滿意度兩個公式,得出相應結果,以下圖。
需求重要度=某需求的關注用戶數/說起紙尿褲品類或品牌的用戶數;
需求滿意度=某需求的正向表達言論數/某需求的說起言論數。
(2)品牌認知的差別分析
從有品牌認知的消費者中看,不一樣品牌的說起量具備顯著差異(以下圖)。
花王、好奇、幫寶適是最受關注的 TOP3 品牌,其中,好奇和第一名花王的差距很是小;
好奇的系列辨識度要遠高於幫寶適,其中,幫寶適品牌中僅 3% 的用戶會明確說起產品系列。
品牌關注度=說起某品牌的用戶數/說起任意品牌的用戶數。
從消費者的正面評價中不一樣需求點的分佈看,用戶選擇各品牌的緣由主要是(以下圖):
「不紅屁屁/過敏」「好用」是品牌都被消費者承認的點;
好奇更被消費者承認的是「不紅屁屁/過敏」、「柔軟」、「透氣性」;
花王更被承認的是「產地」;
幫寶適更被承認的是「吸水性」、「價格」。
04 總結
本文的目的在於以案例的方式讓你們理解如何經過文本數據進行消費者洞察,若是工做中有相關數據場景的可按照文章的思路進行基礎實操。因篇幅有限,相關知識點沒法更全面的爲你們展開(好比,如何經過更多天然語言處理方法來高效構建詞庫),感興趣的童鞋記得留言探討喲~
一個數據人的自留地是一個助力數據人成長的你們庭,幫助對數據感興趣的夥伴們明確學習方向、精準提高技能。關注我,帶你探索數據的神奇奧祕
一、回「數據產品」,獲取<大廠數據產品面試題>
二、回「數據中臺」,獲取<大廠數據中臺資料>
三、回「商業分析」,獲取<大廠商業分析面試題>;
四、回「交個朋友」,進交流羣,認識更多的數據小夥伴。