移動輿情分析 MMA(Mobile Media Analysis)做爲 mPaaS 對移動端產品覆蓋上是一個有力的補充,在需求、發佈、分析、運營等階段都發揮着不可或缺的做用。算法
• 需求階段,輔助市場調研、競品分析、產品決策。
• 發佈階段,監控新版本用戶反饋,第一時間瞭解用戶的新版使用感覺,收集需求;收集用戶使用bug。
• 分析階段,經過平臺提供的指標趨勢、事件分析功能,進行產品的監控和分析。
• 運營階段,提供運營活動的傳播效果和運營傾向監控。
複製代碼
結合 mPaaS 的其餘組件,可以更好地完成產品開發。下圖爲移動輿情分析(MMA)與 mPaaS 平臺提供的功能在產品開發生命週期中發揮的做用示意圖:sql
本文將從如下三個方面幫助你們瞭解移動輿情分析(MMA):數據庫
• MMA 是如何誕生的
• 現階段 MMA 都提供了哪些功能
• MMA 的技術架構是怎樣的
複製代碼
隨着互聯網的迅速發展,互聯網已經成爲了人們傳播和獲取各類信息的主要手段,天天都有大量輿情經過互聯網進行傳播,發酵,甚至構成輿情災難。安全
網絡輿情具有如下幾個特徵:服務器
一、信息量大,數據分析困難微信
二、傳播速度快,人爲監控難以及時發現、遏制網絡
三、我的觀點情緒化,容易一邊倒,引起公信力危機架構
移動輿情分析(MMA)源於支付寶內部的 Anteye 輿情平臺,對內服務了支付寶、螞蟻財富、口碑、網上銀行、AlipayHK 等重點產品在內的 100 多條業務線,及上千名阿里小二。併發
支付寶做爲國民應用,天天在 App 內進行意見反饋的用戶上萬個,這上萬條應用內反饋,包含了用戶使用時遇到的問題,對體驗的吐槽,以及用戶辛苦寫下的對產品的建議,爲了讓這些有價值的信息獲得充分重視,更好地服務用戶,因此誕生了 Anteye 輿情平臺。框架
Anteye 致力於將各種反饋信息正確地分發給對應的角色,好比將產品問題按業務線分發給各業務 Owner,將有價值的用戶體驗的吐槽和產品建議分發給產品經理,將安全相關信息分發給安全同窗等,並支持在平臺上進行反饋的處理,處理結果能夠選擇性的回覆給提交反饋的用戶。對應用內反饋數據的分發、處理,拉近了用戶和產品開發人員的距離,幫助改進產品,提高用戶體驗。
用戶除了在 App 內提交反饋,還可能在各大應用市場對 App 進行評分,發表使用感覺。因此後來接入了各大應用市場評論的數據,用於監控產品各版本在應用市場(部分應用市場等同於手機廠商)的評分表現,情感傾向和吐槽的話題。
後來 Anteye 增長了外部媒體輿情的採集、分析、監控能力。Anteye 關注的外部媒體主要分爲三部分數據來源:微博、新聞媒體文章、微信公衆號文章。對外部媒體輿情數據的分析,重點集中在負面事件的預警,以及重點事件的分析(趨勢、情感、傳播路徑等)。預警機制幫助及時發現潛在輿情風險,爭取到寶貴的處理時間,重點事件分析幫助瞭解事件從萌發到爆發的過程和重點渠道、鏈路。
MMA 將支付寶客戶端反饋組件和 Anteye 輿情平臺兩部分融合成一個組件,提供了完整的數據採集、分析功能。
MMA(Mobile Media Analysis)經過採集應用內、應用市場反饋及外部媒體等內容,通過機器學習、天然語言處理等大數據技術,爲企業的產品迭代升級、運營、營銷、公關提供實時、有效的「輿情監控-分析-預警-處理」的閉環能力,幫助企業發現並追蹤產品問題,收集產品建議,危機公關,輔助市場調研、產品營銷與競爭分析。
輿情分析平臺 MMA 做爲螞蟻金服移動開發平臺 mPaaS 的組件之一,致力於幫助用戶開發、運營出更好的移動端產品,因此主要解決的問題包含了兩個方面:
一、來自使用者的反饋分析:
數據分類:
數據特色分析:
二、來自社會輿論的反饋分析:
數據分類:
數據特色分析:
下圖爲 MMA 主要針對的業務場景:
一、相較通常輿情平臺,支持應用內反饋、應用市場評價這兩個和 App 密切相關的數據來源
二、支持「輿情監控->分析->預警->處理」的完整閉環
三、支持公有云部署和私有云部署雙重部署方式
四、歷經多年打磨的適用於輿情分析的天然語言處理技術
mPaaS 移動輿情分析 (MMA)系統總共包含 3 個部分:
一、輿情分析平臺:對數據進行分析,整合後進行數據顯示、訂閱和預警
二、客戶端反饋組件:提供用戶在客戶端提交用戶反饋的功能
三、爬蟲系統:爬取應用市場、微博、新聞媒體等數據
下圖爲三個模塊的關係圖:
下圖爲系統總體的功能模塊圖:
輿情分析平臺爲 MMA 的核心組件,將客戶端反饋組件和爬蟲系統採集來的數據進行存儲、清洗、算法打標、模型計算、數據整合分析後,將有效的信息展現給用戶。整個流程以下圖所示:
輿情分析平臺將採集來的數據持久化到 Mysql 和 Mongo 數據庫中,經過數據清洗模塊進行數據的轉換、垃圾過濾等清洗工做,而後轉存入 Elasticsearch,以知足高效查詢的要求。
算法服務主要對數據進行天然語言處理, 對數據進行更貼合人類使用習慣的打標,方便數據分析、統計。
首先經過垃圾過濾技術排除無效數據,而後根據數據的各自特色分別進行處理。對於應用內反饋和應用市場評論數據,平臺基於其文本短、表述意圖單一的特色,使用新話題發現技術,將數據按照話題的維度進行分類,使用短文本情感算法進行情感標註。對於外部媒體輿情,平臺基於其文本較長、表述方法多樣的特色,使用類似度計算和文本聚類等算法,將同一事件的相關輿情篩選出來,同時使用長文本情感算法進行情感標註。
簡單羅列上述提到的相關技術採用的基礎算法:
以上相關算法,如感興趣可自行查閱相關資料,MMA 雖在通用算法基礎上作了特殊化處理,但基本原理不變。下面咱們主要介紹下短文本情感和**長文本情感****算法:
短文本通常表述的核心主題只有一個,因此只須要抓住核心詞和核心情感詞進行情感判斷便可。MMA 平臺的短文本情感算法經過構建情感極性詞典(包含積極、消極、中性等情感詞),結合語句的否認、反問等語義解析,造成情感公式去判斷文本的情感偏向。該過程的難點在於情感詞典需足夠豐富、準確,及情感公式中權重係數的選擇。
長文本在表達方式、中心思想上可能都比較複雜,核心詞多是多個,每一個核心詞對應的情感偏向也不同,因此短文本情感算法不適用。MMA 平臺使用基於 Tensorflow 深度學習框架的 LSTM(Long short-term memory)長短時間記憶神經網絡,訓練大量的外部媒體輿情信息,進行情感的預測。首先進行數據清洗,去除垃圾文本和文本中的特殊符號、表情符號等,而後經過 Word2vector 模型轉換爲詞向量,再經過截斷或者補全的方式轉換爲等長的句子序列做爲 LSTM 的輸入進行訓練,最後使用訓練後的模型進行情感預測。該過程的難點在於數據清洗、模型的選取和模型調參,這裏再也不展開討論。
數據計算模塊經過使用自定義的評分模型完成對單條數據的評分度量,經過自定義的熱度模型實現對單個事件的熱度度量,經過預置的規則或者用戶定義的預警規則實現輿情預警。
輿情分析平臺按照數據類型進行指標展現,其中應用內反饋和應用市場評論數據,主要按照話題、情感、數量等維度進行趨勢、分佈分析;而外部媒體輿情以事件爲切入點,分析該事件的熱度、情感、重點原聲、傳播等。
客戶端反饋組件自帶了一套集反饋收集、展現、處理完整流程的反饋模塊,以便於用戶從零開始快速構建應用內反饋的輿情分析體系。
若是客戶 App 已經自帶了反饋模塊,MMA 也提供了接口來接收現有反饋模塊收集的數據,從而快速使用 MMA 的輿情分析功能。
內容採集系統採用分佈式架構,將各重要功能服務化,提升系統的穩定性、擴展性和吞吐率。用戶只須要進行簡單的配置,便可完成數據採集功能。
調度中心會定時讀取規則庫,將須要採集的配置和微博更新的配置放入消息中心 MQ 中,採集服務和解析存儲服務會持續監聽 MQ,各自取出對應任務進行處理,最後將結果存入數據庫中。監控中心負責整個系統的穩定性監控,採集數據的變化監控和新規則的配置。
採集服務支持基於 HttpClient 的同步請求獲取和基於 Phantomjs 的 HTML 頁面異步渲染結果獲取,且爲了應對反採集策略,支持 IP 代理,帳號、Cookie 的切換。該服務對所在服務器的帶寬要求較高。 採集服務和解析存儲服務都支持橫向擴展,能夠經過簡單的添加機器知足業務快速增加的需求。
本文重點講解了 mPaaS 移動輿情分析(MMA)在「輿情分析平臺」、「客戶端反饋組件」、「內容採集系統」三個方面的具體架構設計。同時 MMA 也在開發更多可以幫助用戶更快發現、解決問題的功能,好比當前在研發中的基於日誌分析的輿情問題快速定位功能:用戶在應用內作了反饋,若是平臺斷定爲是系統 bug,則會觸發日誌管理平臺拉取用戶設備日誌,分析反饋上報期間的日誌,並結合分析用戶當時的網絡情況、手機情況,快速給出該系統 bug 的可能緣由。
在產品整合上,移動輿情分析產品一樣支持和 mPaaS 產品體系以及企業內部系統實現深度打通與整合。
首先,輿情產品能夠直接和 mPaaS 體系中的研發協同平臺對接,由後者缺陷管理模塊處理輿情問題並同步結果給輿情平臺。其次,輿情產品還能夠和智能投放產品結合,在投放前,經過輿情分析產品分析目標受衆,使投放過程更具備針對性,在投放後,又可經過輿情產品監控活動在全網的傳播狀況。相似地,輿情分析也能夠和企業內部的辦公系統、營銷系統等實現打通。
若是你對 mPaaS 移動輿情分析(MMA)感興趣,歡迎進一步交流。
往期閱讀
《螞蟻金服 mPaaS 服務端核心組件體系概述:移動 API 網關 MGS》
《螞蟻金服 mPaaS 服務端核心組件:億級併發下的移動端到端網絡接入架構解析》
《mPaaS 服務端核心組件:消息推送 MPS 架構及流程設計》
釘釘羣:經過釘釘搜索羣號「23124039」
期待你的加入~