網站數據分析(10)——內容運營分析模型

內容運營是指基於內容的策劃、編輯、發佈、優化、營銷等一系列工做,主要集中在互聯網、媒體等之內容爲主的行業領域。內容運營根據內容生產方式的不一樣可分爲UGC、PGC和OGC三種。算法

(1)UGC(User-generated Content),用戶生產內容。這是論壇、貼吧、微博時代的主要內容生產方式,內容主要由參與內容載體的用戶產生,運營方自己不產生任何實質性內容。這些用戶通常都是非專業「寫手」,一般基於興趣、愛好等共同語言而自發造成內容。微信

(2)PGC(Professionally-generated Content),專業生產內容。PGC相比UGC,都是由用戶產生內容,可是這裏的用戶主要指的是有專業背景、資歷的用戶,包括行業領袖、知識專家、書籍做者等,這些人一般能產生很是高質量的專業內容。如今不少知識性網站都是此類形式,例如知乎、我的微信公衆號等。網絡

(3)OGC(Occupationally-generated Content),職業生產內容。OGC相比PGC在內容專業度上至關,可是OGC的特色是將內容生產做爲一門「職業」,所以相對應的從內容生產中獲取收入是這一類型的顯著性 特徵。OGC的廣泛表明是各個新聞類網站和媒體,通常都以付費投稿、 分紅等方式吸引高質量的「寫手」參與內容生產;固然,除了邀請外部專家參與內容生產,這類網站自身也擁有不少職業內容生產者。學習

本節的數據化運營分析模型主要涉及情感分析模型、搜索優化模型、文章關鍵字模型、主題模型、垃圾信息檢測模型。優化

1、情感分析模型

情感分析是對情感傾向的分析,用於分析特定對象對相關屬性的觀點、態度、情緒、立場以及其餘主觀感情的技術,分析結果一般屬於正向、中性或負向的一種。網站

情感分析的應用場景:搜索引擎

  • 競爭情報:獲取用戶觀點中關於競爭對手的特定信息。
  • 輿情監測:得到有關自身網站、內容、產品、服務、品牌、形象等相關信息的監控和預測,以得到有較強影響力、傾向性的言論和觀點的現狀及將來趨勢。
  • 客戶傾向分析:客戶對於企業的傾向是積極仍是消極的分析,利於創建全面的客戶與企業形象認知。
  • 話題監督:監督特定話題下,全部用戶的話題集中點、主要內容、話題演變等。
  • 口碑分析:用戶對於企業各方面的感知和認識,尤爲對於具備良好傳播效應的意見領袖的口碑把控。

情感分析經常使用方法:除了非負矩陣分解、基於遺傳算法的情感分析以外,使用的最多的仍是監督學習算法,例如樸素貝葉斯、K近鄰和支持向量機等。使用分類方法下作情感分析的基本思路是:編碼

  • 步驟1:文本預處理,包括去除無效標籤、編碼轉換、文檔切分、基本糾錯、去除空白、大小寫統1、去標點符號、去停用詞、保留特殊字符等。
  • 步驟2:文本分詞,在中文環境下須要特定的分詞模型。
  • 步驟3:文本向量化,將文本特徵轉化爲向量空間模型來標示。
  • 步驟4:特徵提取,對於海量稀疏特徵作特徵提取,包括特徵選擇和數據絳維等方法。
  • 步驟5:分類建模和效果評估,選擇特定的分類模型,創建模型並作效果評估和結論分析。

2、搜索優化模型

用戶在某些文本之間可能存在頻繁的關聯查閱關係,而這些關鍵字之間會蘊藏用戶的潛在乎圖。例如,當用戶在搜索引擎搜索「熱度分析」一詞時,相關的搜索詞可能包括:空間熱度分析、關鍵詞熱度分析、音頻熱度分析、熱詞分析、關鍵詞熱度分析十法、關鍵詞熱度分析、網絡遊戲熱度排行榜等。cdn

搜索優化模型能夠幫助用戶更快找到有興趣的潛在內容,可用於搜索過程當中的聯想功能、相關的結果提示和二次搜索建議。視頻

經常使用的搜索優化模型的方法是關聯模型,例如Apriori、FP-growth 等

3、文章關鍵字模型

關鍵字提取是從文本中提取跟內容最相關的詞語,關鍵字抽取的結果經常使用於文檔檢索、文章標籤編輯等,也常常用在文本聚類、文本分類、關鍵字摘要等方面。

關鍵字模型能生成簡短的關於文檔內容的指示性信息,將文檔的主要內容或核心關鍵字呈現給用戶,以決定是否要閱讀文檔的原文,這樣可以節省大量的瀏覽時間並提升信息關鍵信息的展現能力。

文章關鍵字模型抽取應用場景:帖子、新聞、資訊、評論、問答等 的標籤、內容和meta信息的產生。

文章關鍵字模型抽取經常使用方法:經過詞頻統計、TF-IDF模型得到文本的主要關鍵字。

4、主題模型

主題模型(Topic Model),是提煉出文字中隱含主題的一種建模方法。在統計學中,主題就是詞彙表或特定詞語的詞語機率分佈模型,它是文字(文章、話語、句子)所表達的中心思想或核心概念。例如,當提到IBM時,可能咱們會想到ThinkPad;提到比爾蓋茨,咱們就會想到 Windows。IBM和ThinkPad、比爾蓋茨和Windows就是各自主題裏面相關的概念。

主題模型是一個可以挖掘語言背後隱含信息的利器,是語義挖掘、天然語言理解、文本解析和文本分析、信息檢索的重要組成部分。

  • 它能夠衡量文檔之間的語義類似性,是文本聚類、分類、情感分析、文檔類似度等應用的重要組成部分。
  • 它能夠解決多義詞的問題,實現準確的詞性標註。
  • 它能夠排除文本中噪音,從中準確的提煉出主題關鍵字。

主題模型克服了傳統信息檢索中文檔類似度計算方法的缺點,可以在海量數據中自動尋找出文字間的語義主題。主題模型能夠應用到圍繞 主題產生的應用場景中,例如搜索引擎領域、情感分析、輿情監控、個性化推薦、社交分析等。主題模型的獲得的結果,能夠在去停用詞以後,配合標籤雲等形式作進一步的形象展現。

經常使用的主題模型包括:

  • 潛在狄利克雷分配模型(Latent Dirichlet Allocation,LDA)。
  • 機率潛在語義分析(ProbabilisticLatent Semantic Analysis,pLSA)。
  • 其餘基於LDA的衍生模型,如Twitter LDA,TimeUserLDA, ATM,Labeled-LDA,MaxEnt-LDA等。

5、垃圾信息檢測模型

垃圾信息檢測模型是一種分類應用,主要用於檢測特定對象是否包含垃圾信息,是網站內容管理的重要方式和途徑。

常見的垃圾信息檢測應用包括:

  • 從電子郵件中過濾垃圾郵件。
  • 從站內信中過濾含有惡意信息的信息。
  • 從評論或留言中過濾過激言論。
  • 從用戶發佈的文章中識別負面題材。

垃圾信息檢測模型能夠將於分類模型來實現,經常使用方法:樸素貝葉斯、矩陣變換法、K近鄰、支持向量機、神經網絡等。

除了基於有標籤的訓練集作監督式學習外,還可使用非監督式的方法作垃圾信息監測,例如:

  • 基於內容類似度,分析新評論與已有的垃圾信息的內容類似度,若是類似度高於必定閾值,則認定爲垃圾內容。固然,這樣作的前提是有一份相對完整的垃圾信息的集合,而且須要不斷維護。
  • 基於固定信息的過濾,例如固定IP、包含特定關鍵字、包含 URL、來源於特定域等,這些就不屬於算法類應用了。

除了針對文本垃圾信息檢測外,還可包括更多類型的內容形式,例 如視頻、圖片、語音等。

相關文章
相關標籤/搜索