網站數據分析（10）——內容運營分析模型

時間 2019-11-08

原文原文鏈接

內容運營是指基於內容的策劃、編輯、發佈、優化、營銷等一系列工做，主要集中在互聯網、媒體等之內容爲主的行業領域。內容運營根據內容生產方式的不一樣可分爲UGC、PGC和OGC三種。算法

（1）UGC（User-generated Content），用戶生產內容。這是論壇、貼吧、微博時代的主要內容生產方式，內容主要由參與內容載體的用戶產生，運營方自己不產生任何實質性內容。這些用戶通常都是非專業「寫手」，一般基於興趣、愛好等共同語言而自發造成內容。微信

（2）PGC（Professionally-generated Content），專業生產內容。PGC相比UGC，都是由用戶產生內容，可是這裏的用戶主要指的是有專業背景、資歷的用戶，包括行業領袖、知識專家、書籍做者等，這些人一般能產生很是高質量的專業內容。如今不少知識性網站都是此類形式，例如知乎、我的微信公衆號等。網絡

（3）OGC（Occupationally-generated Content），職業生產內容。OGC相比PGC在內容專業度上至關，可是OGC的特色是將內容生產做爲一門「職業」，所以相對應的從內容生產中獲取收入是這一類型的顯著性特徵。OGC的廣泛表明是各個新聞類網站和媒體，通常都以付費投稿、分紅等方式吸引高質量的「寫手」參與內容生產；固然，除了邀請外部專家參與內容生產，這類網站自身也擁有不少職業內容生產者。學習

本節的數據化運營分析模型主要涉及情感分析模型、搜索優化模型、文章關鍵字模型、主題模型、垃圾信息檢測模型。優化

1、情感分析模型

情感分析是對情感傾向的分析，用於分析特定對象對相關屬性的觀點、態度、情緒、立場以及其餘主觀感情的技術，分析結果一般屬於正向、中性或負向的一種。網站

情感分析的應用場景：搜索引擎

競爭情報：獲取用戶觀點中關於競爭對手的特定信息。
輿情監測：得到有關自身網站、內容、產品、服務、品牌、形象等相關信息的監控和預測，以得到有較強影響力、傾向性的言論和觀點的現狀及將來趨勢。
客戶傾向分析：客戶對於企業的傾向是積極仍是消極的分析，利於創建全面的客戶與企業形象認知。
話題監督：監督特定話題下，全部用戶的話題集中點、主要內容、話題演變等。
口碑分析：用戶對於企業各方面的感知和認識，尤爲對於具備良好傳播效應的意見領袖的口碑把控。

情感分析經常使用方法：除了非負矩陣分解、基於遺傳算法的情感分析以外，使用的最多的仍是監督學習算法，例如樸素貝葉斯、K近鄰和支持向量機等。使用分類方法下作情感分析的基本思路是：編碼

步驟1：文本預處理，包括去除無效標籤、編碼轉換、文檔切分、基本糾錯、去除空白、大小寫統1、去標點符號、去停用詞、保留特殊字符等。
步驟2：文本分詞，在中文環境下須要特定的分詞模型。
步驟3：文本向量化，將文本特徵轉化爲向量空間模型來標示。
步驟4：特徵提取，對於海量稀疏特徵作特徵提取，包括特徵選擇和數據絳維等方法。
步驟5：分類建模和效果評估，選擇特定的分類模型，創建模型並作效果評估和結論分析。

2、搜索優化模型

用戶在某些文本之間可能存在頻繁的關聯查閱關係，而這些關鍵字之間會蘊藏用戶的潛在乎圖。例如，當用戶在搜索引擎搜索「熱度分析」一詞時，相關的搜索詞可能包括:空間熱度分析、關鍵詞熱度分析、音頻熱度分析、熱詞分析、關鍵詞熱度分析十法、關鍵詞熱度分析、網絡遊戲熱度排行榜等。cdn

搜索優化模型能夠幫助用戶更快找到有興趣的潛在內容，可用於搜索過程當中的聯想功能、相關的結果提示和二次搜索建議。視頻

經常使用的搜索優化模型的方法是關聯模型，例如Apriori、FP-growth 等

3、文章關鍵字模型

關鍵字提取是從文本中提取跟內容最相關的詞語，關鍵字抽取的結果經常使用於文檔檢索、文章標籤編輯等，也常常用在文本聚類、文本分類、關鍵字摘要等方面。

關鍵字模型能生成簡短的關於文檔內容的指示性信息，將文檔的主要內容或核心關鍵字呈現給用戶，以決定是否要閱讀文檔的原文，這樣可以節省大量的瀏覽時間並提升信息關鍵信息的展現能力。

文章關鍵字模型抽取應用場景：帖子、新聞、資訊、評論、問答等的標籤、內容和meta信息的產生。

文章關鍵字模型抽取經常使用方法：經過詞頻統計、TF-IDF模型得到文本的主要關鍵字。

4、主題模型

主題模型（Topic Model），是提煉出文字中隱含主題的一種建模方法。在統計學中，主題就是詞彙表或特定詞語的詞語機率分佈模型，它是文字（文章、話語、句子）所表達的中心思想或核心概念。例如，當提到IBM時，可能咱們會想到ThinkPad；提到比爾蓋茨，咱們就會想到 Windows。IBM和ThinkPad、比爾蓋茨和Windows就是各自主題裏面相關的概念。