內容運營是指基於內容的策劃、編輯、發佈、優化、營銷等一系列工做,主要集中在互聯網、媒體等之內容爲主的行業領域。內容運營根據內容生產方式的不一樣可分爲UGC、PGC和OGC三種。算法
(1)UGC(User-generated Content),用戶生產內容。這是論壇、貼吧、微博時代的主要內容生產方式,內容主要由參與內容載體的用戶產生,運營方自己不產生任何實質性內容。這些用戶通常都是非專業「寫手」,一般基於興趣、愛好等共同語言而自發造成內容。微信
(2)PGC(Professionally-generated Content),專業生產內容。PGC相比UGC,都是由用戶產生內容,可是這裏的用戶主要指的是有專業背景、資歷的用戶,包括行業領袖、知識專家、書籍做者等,這些人一般能產生很是高質量的專業內容。如今不少知識性網站都是此類形式,例如知乎、我的微信公衆號等。網絡
(3)OGC(Occupationally-generated Content),職業生產內容。OGC相比PGC在內容專業度上至關,可是OGC的特色是將內容生產做爲一門「職業」,所以相對應的從內容生產中獲取收入是這一類型的顯著性 特徵。OGC的廣泛表明是各個新聞類網站和媒體,通常都以付費投稿、 分紅等方式吸引高質量的「寫手」參與內容生產;固然,除了邀請外部專家參與內容生產,這類網站自身也擁有不少職業內容生產者。學習
本節的數據化運營分析模型主要涉及情感分析模型、搜索優化模型、文章關鍵字模型、主題模型、垃圾信息檢測模型。優化
情感分析是對情感傾向的分析,用於分析特定對象對相關屬性的觀點、態度、情緒、立場以及其餘主觀感情的技術,分析結果一般屬於正向、中性或負向的一種。網站
情感分析的應用場景:搜索引擎
情感分析經常使用方法:除了非負矩陣分解、基於遺傳算法的情感分析以外,使用的最多的仍是監督學習算法,例如樸素貝葉斯、K近鄰和支持向量機等。使用分類方法下作情感分析的基本思路是:編碼
用戶在某些文本之間可能存在頻繁的關聯查閱關係,而這些關鍵字之間會蘊藏用戶的潛在乎圖。例如,當用戶在搜索引擎搜索「熱度分析」一詞時,相關的搜索詞可能包括:空間熱度分析、關鍵詞熱度分析、音頻熱度分析、熱詞分析、關鍵詞熱度分析十法、關鍵詞熱度分析、網絡遊戲熱度排行榜等。cdn
搜索優化模型能夠幫助用戶更快找到有興趣的潛在內容,可用於搜索過程當中的聯想功能、相關的結果提示和二次搜索建議。視頻
經常使用的搜索優化模型的方法是關聯模型,例如Apriori、FP-growth 等
關鍵字提取是從文本中提取跟內容最相關的詞語,關鍵字抽取的結果經常使用於文檔檢索、文章標籤編輯等,也常常用在文本聚類、文本分類、關鍵字摘要等方面。
關鍵字模型能生成簡短的關於文檔內容的指示性信息,將文檔的主要內容或核心關鍵字呈現給用戶,以決定是否要閱讀文檔的原文,這樣可以節省大量的瀏覽時間並提升信息關鍵信息的展現能力。
文章關鍵字模型抽取應用場景:帖子、新聞、資訊、評論、問答等 的標籤、內容和meta信息的產生。
文章關鍵字模型抽取經常使用方法:經過詞頻統計、TF-IDF模型得到文本的主要關鍵字。
主題模型(Topic Model),是提煉出文字中隱含主題的一種建模方法。在統計學中,主題就是詞彙表或特定詞語的詞語機率分佈模型,它是文字(文章、話語、句子)所表達的中心思想或核心概念。例如,當提到IBM時,可能咱們會想到ThinkPad;提到比爾蓋茨,咱們就會想到 Windows。IBM和ThinkPad、比爾蓋茨和Windows就是各自主題裏面相關的概念。
主題模型是一個可以挖掘語言背後隱含信息的利器,是語義挖掘、天然語言理解、文本解析和文本分析、信息檢索的重要組成部分。
主題模型克服了傳統信息檢索中文檔類似度計算方法的缺點,可以在海量數據中自動尋找出文字間的語義主題。主題模型能夠應用到圍繞 主題產生的應用場景中,例如搜索引擎領域、情感分析、輿情監控、個性化推薦、社交分析等。主題模型的獲得的結果,能夠在去停用詞以後,配合標籤雲等形式作進一步的形象展現。
經常使用的主題模型包括:
垃圾信息檢測模型是一種分類應用,主要用於檢測特定對象是否包含垃圾信息,是網站內容管理的重要方式和途徑。
常見的垃圾信息檢測應用包括:
垃圾信息檢測模型能夠將於分類模型來實現,經常使用方法:樸素貝葉斯、矩陣變換法、K近鄰、支持向量機、神經網絡等。
除了基於有標籤的訓練集作監督式學習外,還可使用非監督式的方法作垃圾信息監測,例如:
除了針對文本垃圾信息檢測外,還可包括更多類型的內容形式,例 如視頻、圖片、語音等。