輿情文本分析

用戶輿情信息包括文本、音頻、圖片等各類各樣的形式,在實際工做中,咱們應用較多的仍是文本類的用戶輿情。綜合考慮數量、豐富性、易得到性、信息匹配度等方面因素,文本之於音視頻、圖片而言的信息價值、性價比都是相對比較高的。前端

1、文本用戶輿情的價值

當咱們從電商、論壇、應用市場、新聞媒介等渠道平臺取到大量和調研目標相匹配的用戶輿情文本後,具體應該如何應用?其中可能包含哪些對用研有價值的內容?能夠經過什麼方法提煉分析?能實現什麼預期效果?根據以往項目經驗,文本輿情分析的價值和具體應用以下圖所示:算法

這些信息既描述說明了「是什麼」的問題,也能夠代表屬性、關係、喜愛,說明是「怎麼樣」的,還能在必定程度上分析表象背後的緣由,分析「爲何」,能夠挖掘出包含其中的焦點、趨勢、關聯,幫助咱們瞭解產品的市場反饋和用戶需求,爲方向聚焦、策略引導、價值判斷提供依據。編程

2、文本輿情數據的分析方法

分析文本輿情數據,主要用到的是文本分析的方法。由於文本數據是非結構化的,拿到文本輿情以後的一個關鍵問題是要把數據轉化爲能被計算機理解和處理的結構化數據,而後纔可能進一步對用戶輿情數據進行完整系統的處理分析,從無關冗餘的數據中提煉出有意義的部分。微信

過程當中須要用到的工具備:網絡

  1. 數據爬蟲工具:能夠根據咱們的須要免費從網站上爬取數據(在設有反爬蟲機制的渠道,獲取輿情數據的難度會增長)。
  2. 文本分析工具:經過分詞處理、詞頻分析、語義網絡分析等,挖掘潛藏其中的關鍵信息,把握深層的關係和結構。根據筆者的實際使用經驗,文本分析工具ROST的功能完善,在文本數據量不太大的狀況下基本能知足中文輿情分析的須要。若是對於文本分析結果有更高的要求,可以使用Python、R等編程語言進行處理。
  3. 文本數據可視化工具:使用工具將文本分析結果以可視化的形式(如詞雲圖、語義網絡圖)呈現出來,便於從中直觀的發現價值點。

一、數據爬蟲

明確輿情分析的目的和需求後,篩選數據來源渠道獲取用戶輿情數據。編程語言

網絡上例如論壇發帖、微博評論、淘寶京東的買家評價等文本輿情信息都是能夠用爬蟲工具直接爬取的。以八爪魚爲例,能夠很方便的從網站上把咱們須要的內容按二維結構表的形式(好比excel)免費下載保存。以下圖所示,八爪魚就從電商網站商品詳情頁上爬取到了信息。同理,爬取用戶輿情數據也能夠採用相同的方法實現。編輯器

(圖片來源:八爪魚官網免費教程視頻截圖,筆者標註)工具

二、文本清洗和預處理

用戶在網絡上的書寫表達很是隨意多樣,漢字中夾雜數字、字母、符號;語句段落的表達間斷不完整,還會出現大量重複的短語短句,好比有的人會評論「棒棒棒棒」「太太太太差了「。文本清洗首要是把這些噪音數據清洗掉。ROST的「文本處理」功能能夠用來進行文本清洗。網站

咱們還應根據須要對數據進行從新編碼。例如在網易雲課堂的某次輿情分析中,用戶大量說起了中國大學MOOC,但表達方式有多種(如中M、中國大學慕課、慕課)。爲了便於分析,統一編碼是很是必要的。編碼

三、分詞

分詞就是把一段中文文本切割成一個個單獨的詞。中文分詞的難點在於書寫中文時字詞之間並無明顯的間隔或劃分,不像英文那樣能夠根據天然書寫的間隔實現基本的分詞(如「we are family」能夠直接拆分出「we」 「are」 「family」)。

漢字書寫表達時沒有明顯的分隔符,再加上漢語博(那)大(麼)精(復)深(雜),大大增長了中文分詞的難度。這裏舉一個經典的例子:短語「南京市長江大橋」中因爲有些詞語存在歧義,計算機的分詞結果多是「南京市/長江/大橋」,也多是「南京/市長/江大橋」。咱們顯然知道第一種狀況是正確的,但若是算法還不夠完善計算機就可能出錯,畢竟兩種結果基於漢語構詞和語法規則都是說得通的。可見具體在實際進行分詞的時候,結果可能存在一些不合理的狀況。基於算法和中文詞庫建成分詞系統後,還須要經過不斷的訓練來提升分詞的效果,若是不能考慮到各類複雜的漢語語法狀況,算法中存在的缺陷很容易影響分詞的準確性。

四、詞頻和關鍵詞

詞頻就是某個詞在文本中出現的頻次。簡單來講,若是一個詞在文本中出現的頻次越多,這個詞在文本中就越重要,就越有多是該文本的關鍵詞。這個邏輯自己沒有問題,但其中有一些特殊狀況須要留意。

最關鍵的一點就是在關於天然語言的語料庫裏,一個單詞出現的頻率與它在頻率表裏的排名成反比。根據經典「齊夫定律」的定義,假設我對文本進行分詞處理並統計了詞頻,發現詞頻排名TOP3的三個詞分別爲「的」、「是」、「它」,那麼「的」出現頻率應該約爲「是」的2倍,約爲「它」的3倍。結果就可能會是詞頻排名靠前的高頻詞佔去了整個語料的大半,其他多數詞的的出現頻率卻不多。

因此不能徹底直接的基於詞頻來判斷輿情文本中哪些是重要的關鍵詞,詞頻最高的實際上是中文中的經常使用字,而非對當前文本最有表明性的關鍵詞。以下圖的詞頻曲線所示,只有出如今曲線中間區域的詞纔是真正在當前文本中出現頻率高,而且在其餘文本中不多出現的,這些詞語就是當前文本的關鍵詞,對當前文本具備重要性和表明性。前端的高頻詞和靠後的長尾低頻詞均可排除在考慮範圍以外。

(圖片來源:Google,筆者標註)

基於這個原理,在詞頻統計以前須要過濾掉文本中的停用詞(stop word)。出如今詞頻曲線頭部的那些高頻詞,就多數是停用詞。停用詞還包括實際意義不大但使用頻率高的功能性詞彙,好比「啊」、「的」、「在」、「並且」這樣的語氣詞、介詞、連詞等等。過濾停用詞仍是爲了減小信息冗餘,提升分析的效率和準確性。過濾停用詞須要的停用詞表,詞庫均可以在網上下載。實際應用的過程當中咱們還能夠在停用詞表中添加或刪減特定的詞彙,使之更加完善或具備針對性,符合當前研究的實際須要。

包括分詞、過濾停用詞、統計高頻詞在內的這些操做,均可以經過ROST的分詞工具完成。咱們能夠在ROST中導入通過完善或自定義的詞庫詞表,替換掉ROST自帶的默認詞庫。

這些被提取出的關鍵詞濃縮了用戶輿情中的精華信息,能反映出用戶的關注點、情緒和認知,產品的潛在競爭力等信息。例如,在網易100分的智能筆用戶需求調研項目中,咱們針對2C市場的智能筆消費者進行了輿情分析。首先咱們經過ROST的分詞工具獲取了分詞文檔,關鍵詞及其詞頻列表。而後咱們將分詞後的文檔導入在線詞雲編輯器Tagxedo,就能直接生成詞雲圖。

根據分詞結果和詞雲圖,咱們基本能作出以下斷定:

  • 用戶的總體使用體驗:方便
  • 產品的核心功能點:同步,識別,效率
  • 產品的主要使用場景:筆記,繪畫
  • 用戶的消費體驗:價格,概念創意,外觀
  • 可推測潛在用戶的身份:商務人士?老師?學生?藝術設計從業者?

但若是想要進一步知道具體內容之間的關係,就還得要繼續挖掘分析這些關鍵詞之間的結構關係。

五、語義網絡分析

語義網絡分析是指篩選統計出高頻詞之後,以高頻詞兩兩之間的共現關係爲基礎,將詞與詞之間的關係數值化處理,再以圖形化的方式揭示詞與詞之間的結構關係。基於這樣一個語義網絡結構圖,能夠直觀的對高頻詞的層級關係、親疏程度進行分析。

其基本原理是統計出文本中詞彙、短語兩兩之間共同出現的次數,再經聚類分析,梳理出這些詞之間關係的緊密程度。一個詞對出現的次數越多,就表示這兩個詞之間的關係越密切。每一個詞都有可能和多個詞構成詞對,也會有些詞兩兩之間不會存在任何共線關係。關鍵詞共現矩陣就是統計出共現單詞對出現的頻率,將結果構建而成的二維共現詞矩陣表。

再經聚類分析處理,將關鍵詞共現矩陣轉化爲語義關係網絡,揭示出各節點之間的層級關係、遠近關係。須要特別強調的是,語義網絡分析只是根據節點的分佈狀況來揭示他們之間關係的緊密程度,並不能表示節點之間存在因果關聯。基於共現矩陣的關鍵詞語義網絡分析,一樣也能夠經過ROST中的語義分析工具來完成,生成語義網絡結構圖供咱們進行分析。

例如,咱們曾針對網易雲課堂的用戶支付問題進行了輿情分析。全部輿情數據是以若干支付相關的詞彙爲關鍵詞,進行抓取的。經過ROST的分析生成了以下圖所示的語義網絡結構圖。

在這個語義網絡圖中,次級節點基本以核心節點爲中心向周圍輻射分佈,但其中也存在局部的簇羣關係,揭示出主要問題之間的潛在關聯:

  • 優惠券:優惠券使用問題和從新支付場景關係密切,可挖掘分析致使了從新支付場景下的優惠券使用問題的具體緣由。
  • 移動端:移動端支付問題突出的表如今IOS端
  • 支付渠道:微信和支付寶的支付狀況存在差別。微信和訂單的建立搜索關係密切,支付寶和購買流程關係密切。

六、情感分析

對用戶輿情進行情感分析,主要是分析具備情感成分的詞彙的情感極性(即情感的正性、中性、負性)和情感強烈程度,而後計算出每一個語句的總值,斷定其情感類別。還能夠綜合全文本中全部語句,斷定總輿情數據樣本的總體態度和情感傾向。

ROST一樣也能夠完成對文本情感的分析。但目前很多文獻、研究認爲中文情感分析的準確性不夠高,由於中文除了有直接表達各類極性情感的形容詞(高興、生氣),還有用於修飾情感程度的副詞(很好,很是、太),有時候其中還會夾雜表示否認的詞(很是很差用,很不方便)。分詞處理文本時,要對形容詞、副詞、否認詞都有正確的分詞;分詞後,要基於情感詞庫、否認詞庫、程度副詞庫對這些情感詞彙進行正確的賦值;最後進行情感值加權計算,才能最終分析出總的情感類別。

另外須要注意的是,咱們的輿情數據可能來自電商、應用市場、社區論壇等,這些來源渠道自己就對總體數據的情感傾向有篩選,具備某些屬性的情感表達直接就被該渠道過濾掉了。

3、總結

總的來看,用戶輿情具有有優點特色:

  • 來源渠道豐富:不限於社交網絡、新聞資訊媒體、電商平臺、應用市場等。
  • 覆蓋面廣,信息量大:覆蓋到不一樣人口學特徵的人羣,覆蓋到目標用戶、競品用戶等不一樣人羣。
  • 真實客觀:總體而言是用戶最直接的表達,能在必定程度上保證數據的真實客觀。
  • 獲取成本低:基本上都能快速、免費的獲取,省時高效。

在用研工做中,用戶輿情分析能讓咱們在特定的研究背景下,以更小的代價瞭解到產品的市場反饋,用戶的態度認知和需求痛點,有效的達到研究目的。

相關文章
相關標籤/搜索