以虎嗅網4W+文章的文本挖掘爲例，展示數據分析的一整套流程

時間 2019-11-29

原文原文鏈接

本文轉自知乎html

做者：蘇格蘭折耳喵數據庫

—————————————————————————————————————————————————————編程

本文做者將結合自身經驗，並以實際案例的形式進行呈現，涉及從數據採集、數據清洗、數據分析再到數據可視化的一整套流程分析，力求條理清晰的展示外部數據分析的強大威力。enjoy~

在八月份，筆者曾經寫過一篇針對外部數據分析的文章，一部分讀者看過此文後，向筆者反映，說對外部數據的分析跳出了原有的只針對企業內部數據分析（用戶數據、銷售數據、流量數據等）的窠臼，在企業自身數據資源不足或質量不佳的狀況下，每每能給產品、運營、營銷帶來意想不到的啓迪，爲數據化驅動業務增加打開了一扇窗……api

因爲筆者所在的新浪微輿情是一家社會化大數據領域的語義分析公司，近期從數據分析崗轉到數據產品崗後，不可避免的涉及到許多大數據語義分析的實際應用場景。由此，筆者將工做中的若干心得，以實際案例的形式進行呈現，涉及從數據採集、數據清洗、數據分析再到數據可視化的一整套流程分析，力求條理清晰的展示外部數據分析的強大威力。如下是本文的寫做框架：微信

1. 分析背景

1.1 分析原理：爲何選擇分析虎嗅網

在現今數據爆炸、信息質量參差不齊的互聯網時代，咱們無時無刻不身處在互聯網社會化媒體的「信息洪流」之中，於是無可避免的被它上面氾濫的信息所「裹挾」，也就是說，社會化媒體上的信息對現實世界中的每一個人都有重大影響，社會化媒體是咱們間接瞭解現實客觀世界和主觀世界的一面窗戶，咱們每時每刻都在受到它的影響。關於「社會化媒體」方面的內容，請參看《乾貨｜如何利用Social Listening從社會化媒體中「提煉」有價值的信息？》，如下內容也摘自該文：網絡

綜合上述兩類情形，能夠得出這樣的結論，透過社會化媒體，咱們能夠觀察現實世界：框架

由此，社會化媒體是現實主客觀世界的一面鏡子，而它也會進一步影響人們的行爲，若是咱們對該領域中的優質媒體所發佈的信息進行分析，除了能夠了解該領域的發展進程和現狀，還能夠對該領域的人羣行爲進行必定程度的預判。機器學習

鑑於此種狀況，做爲互聯網從業者的筆者想分析一下互聯網行業的一些現狀，第一步是找到在互聯網界有着重要影響力媒體，上次分析的是「人人的是產品經理」（請參看《乾貨｜做爲一個合格的「增加黑客」，你還得重視外部數據的分析！》），此次筆者想到的是虎嗅網。編程語言

虎嗅網創辦於2012年5月，是一個聚合優質創新信息與人羣的新媒體平臺。該平臺專一於貢獻原創、深度、犀利優質的商業資訊，圍繞創新創業的觀點進行剖析與交流。虎嗅網的核心，是關注互聯網及傳統產業的融合、一系列明星公司（包括公衆公司與創業型企業）的起落軌跡、產業潮汐的動力與趨勢。工具

所以，對該平臺上的發佈內容進行分析，對於研究互聯網的發展進程和現狀有必定的實際價值。

1.2 本文的分析目的

筆者在本項目中的分析目的主要有4個：

（1）對虎嗅網內容運營方面的若干分析，主要是對發文量、收藏量、評論量等方面的描述性分析；

（2）經過文本分析，對互聯網行業的一些人、企業和細分領域進行趣味性的分析；

（3）展示文本挖掘在數據分析領域的實用價值；

（4）將雜蕪無序的結構化數據和非結構化數據進行可視化，展示數據之美。

1.3 分析方法：分析工具和分析類型

本文中，筆者使用的數據分析工具以下：

Python3.5.2（編程語言）
Gensim（詞向量、主題模型）
Scikit-Learn（聚類和分類）
Keras（深度學習框架）
Tensorflow（深度學習框架）
Jieba(分詞和關鍵詞提取)
Excel（可視化）
Seaborn（可視化）
Bokeh（可視化）
Gephi（網絡可視化）
Plotly（可視化）

使用上述數據分析工具，筆者將進行2類數據分析：第一類是較爲傳統的、針對數值型數據的描述下統計分析，如閱讀量、收藏量等在時間維度上的分佈；另外一類是本文的重頭戲---深層次的文本挖掘，包括關鍵詞提取、文章內容LDA主題模型分析、詞向量/關聯詞分析、ATM模型、詞彙分散圖和詞聚類分析。

2. 數據採集和文本預處理

2.1 數據採集

筆者使用爬蟲採集了來自虎嗅網主頁的文章（並非所有的文章，但展現在主頁的信息是主編精挑細選的，很具表明性），數據採集的時間區間爲2012.05~2017.11，共計41,121篇。採集的字段爲文章標題、發佈時間、收藏量、評論量、正文內容、做者名稱、做者自我簡介、做者發文量，而後筆者人工提取4個特徵，主要是時間特徵（時點和周幾）和內容長度特徵（標題字數和文章字數），最終獲得的數據以下圖所示:

2.2 數據預處理

數據分析/挖掘領域有一條金科玉律：「Garbage in, Garbage out」，作好數據預處理，對於取得理想的分析結果來講是相當重要的。本文的數據規整主要是對文本數據進行清洗，處理的條目以下：

（1）文本分詞

要進行文本挖掘，分詞是最爲關鍵的一步，它直接影響後續的分析結果。筆者使用jieba來對文本進行分詞處理，它有3類分詞模式，即全模式、精確模式、搜索引擎模式：

精確模式：試圖將句子最精確地切開，適合文本分析；
全模式：把句子中全部的能夠成詞的詞語都掃描出來, 速度很是快，可是不能解決歧義；
搜索引擎模式：在精確模式的基礎上，對長詞再次切分，提升召回率，適合用於搜索引擎分詞。

現以「定位理論認爲營銷的終極戰場在於消費者心智」爲例，3種分詞模式的結果以下：

【全模式】: 定位/理論/定位理論/認爲/營銷/的/終極/戰場/終極戰場/在/於/在於/消費者/心智/消費者心智
【精確模式】: 定位理論/認爲/營銷/的/終極戰場/在於/消費者心智
【搜索引擎模式】：定位，理論，定位理論，認爲，營銷，的，終極，戰場，終極戰場，在於，消費者心智，消費者，心智

爲了不歧義和切出符合預期效果的詞彙，筆者採起的是精確（分詞）模式。

（2）去停用詞

這裏的去停用詞包括如下三類：

標點符號：，。！ /、*+-
特殊符號：❤❥웃유♋☮✌☏☢☠✔☑♚▲♪等
無心義的虛詞：「the」、「a」、「an」、「that」、「你」、「我」、「他們」、「想要」、「打開」、「能夠」等

（3）去掉高頻詞、稀有詞和計算Bigrams

去掉高頻詞、稀有詞是針對後續的主題模型（LDA、ATM）時使用的，主要是爲了排除對區隔主題意義不大的詞彙，最終獲得相似於停用詞的效果。

Bigrams是爲了自動探測出文本中的新詞，基於詞彙之間的共現關係---若是兩個詞常常一塊兒毗鄰出現，那麼這兩個詞能夠結合成一個新詞，好比「數據」、「產品經理」常常一塊兒出如今不一樣的段落裏，那麼，「數據_產品經理」則是兩者合成出來的新詞，只不過兩者之間包含着下劃線。

3. 描述性分析

該部分中，筆者主要對數值型數據進行描述性的統計分析，它屬於較爲常規的數據分析，能揭示出一些問題，作到知其然，關於數據分析的4種類型，詳情請參看《乾貨｜做爲一個合格的「增加黑客」，你還得重視外部數據的分析！》的第一部分。

3.1 發文數量、評論量和收藏量的變化走勢

從下圖能夠看出，在2012.05~2017.11期間，以季度爲單位，主頁的發文數量起伏波動不大，在均值1800上下波動，進入2016年後，發文數量有明顯提高。

此外，一頭（2012年第二季）一尾（2017年第四季）由於沒有統計徹底，因此發文數量較小。

下圖則是該時間段內收藏量和評論量的變化狀況，評論量的變化不慍不火，起伏不大，但收藏量一直在攀升中，尤爲是在2017年的第二季達到峯值。收藏量在必定程度上反映了文章的乾貨程度和價值性，讀者認爲有價值的文章纔會去保留和收藏，反覆閱讀，含英咀華，這說明虎嗅的文章質量在不斷提升，或讀者的數量在增加。

3.2 發文時間規律分析

筆者從時間維度裏提取出「周」和「時段」的信息，也就是開題提到的「人工特徵」的提取，如今作文章分佈數量的在「周」和「時」上的交叉分析，獲得下圖：

上圖是一個熱力圖，色塊顏色上的由暖到冷表徵數值的由大變小。很明顯的能夠看到，中間有一個顏色很明顯的區域，即由「6時~19時」和「週一~週五」圍成的矩形，也就是說，發文時間主要集中在工做日的白天。另外，週一到週五期間，6時~7時這個時間段是發文的高峯，說明虎嗅的內容運營人員傾向於在工做日的清晨發佈文章，這也符合它的人羣定位---TMT領域從業、創業者、投資人，他們中的許多人有晨讀的習慣，喜歡在趕地鐵、坐公交的過程當中閱讀虎嗅訊息。發文高峯還有9時-11時這個高峯，是爲了提早應對讀者午休時間的閱讀，還有17時~18時，提早應對讀者下班時間的閱讀。

3.3 相關性分析

筆者一直很好奇，文章的評論量、收藏量和標題字數、文章字數是否存在統計學意義上的相關性關係。基於此，筆者繪製出能反映上述變量關係的兩張圖。

首先，筆者作出了標題字數、文章字數和評論量之間的氣泡圖（圓形的氣泡被六角星替代，但本質上仍是氣泡圖）。

上圖中，橫軸是文章字數，縱軸是標題字數，評論數大小由六角星的大小和顏色所反映，顏色越暖，數值越大，五角星越大，數值越大。從這張圖能夠看出，文章評論量較大的文章，絕大部分分佈於由文章字數6000字、標題字數20字所構成的區域內。虎嗅網上的商業資訊文章大都具備原創、深度的特色，文章篇幅中長，意味着能把事情背後的前因後果論述清楚，並且標題要可以吸引人，引起讀者的大量閱讀，合適長度標題和正文篇幅才能作到這一點。

接下來，筆者將收藏量、評論量和標題字數、文章字數繪製成一張3D立體圖，X軸和Y軸分別爲標題字數和正文字數，Z軸爲收藏量和評論量所構成的平面，經過旋轉這個3維的Surface圖，咱們能夠發現收藏量、評論量和標題字數、文章字數之間的相關關係。

注意，上圖的數值表示和前面幾張圖同樣，顏色上的由暖到冷表示數值的由大到小，經過旋轉各維度的截面，能夠看到在正文字數5000字之內、標題字數15字左右的收藏量和評論量造成的截面出現「華山式」陡峯，於是這裏的收藏量和評論量最大。

3.4 城市說起分析

在這裏，筆者經過構建一個包含全國1~5線城市的詞表，提取出通過預處理後的文本中的城市名稱，根據說起頻次的大小，繪製出一張反映城市說起頻次的地理分佈地圖，進而間接地瞭解各個城市互聯網的發展情況（通常城市的說起跟互聯網產業、產品和職位信息掛鉤，能在必定程度上反映該城市互聯網行業的發展態勢）。

上圖反映的結果比較符合常識，北上深廣杭這些一線城市的說起次數最多，它們是互聯網行業發展的重鎮。值得注意的是，長三角地區的大塊區域（長江三角洲城市羣，它包含上海，江蘇省的南京、無錫、常州、蘇州、南通、鹽城、揚州、鎮江、泰州，浙江省的杭州、寧波、嘉興、湖州、紹興、金華、舟山、台州，安徽省的合肥、蕪湖、馬鞍山、銅陵、安慶、滁州、池州、宣城）呈現出較高的熱度值，直接說明這些城市在虎嗅網各種資訊文章中的說起次數較多，結合國家政策和地區因素，能夠這樣理解地圖中反映的這個事實：

長三角城市羣是「一帶一路」與長江經濟帶的重要交匯地帶，在中國國家現代化建設大局和全方位開放格局中具備舉足輕重的戰略地位。中國參與國際競爭的重要平臺、經濟社會發展的重要引擎，是長江經濟帶的引領發展區，是中國城鎮化基礎最好的地區之一。

接下來，筆者將抽取文本中城市之間的共現關係，也就是城市之間兩兩同時出現的頻率，在必定程度上反映出城市間經濟、文化、政策等方面的相關關係，共現頻次越高，說明兩者之間的聯繫緊密程度越高，抽取出的結果以下表所示：

將上述結果繪製成以下動態的流向圖：

因爲虎嗅網上的文章大多涉及創業、政策、商業方面的內容，於是這種城市之間的共現關係反映出城際間在資源、人員或者行業方面的關聯關係，本動態圖中，主要反映的是北上廣深杭（網絡中的樞紐節點）之間的相互流動關係和這幾個一線城市向中西部城市的單向流動情形。流動量大、交錯密集的區域無疑是中國最發達的3個城市羣和其餘幾個新興的城市羣：

京津冀城市羣
長江三角洲城市羣
珠江三角洲城市羣
中原城市羣
成渝城市羣
長江中游城市羣

上面的數據分析是基於數值型數據的描述性分析，接下來，筆者將進行更爲深刻的文本挖掘。

4. 文本挖掘

數據挖掘是從有結構的數據庫中鑑別出有效的、新穎的、可能有用的並最終可理解的模式；而文本挖掘（在文本數據庫也稱爲文本數據挖掘或者知識發現）是從大量非結構的數據中提煉出模式，也就是有用的信息或知識的半自動化過程。關於文本挖掘方面的相關知識，請參看《數據運營|數據分析中，文本分析遠比數值型分析重要！（上）》、《在運營中，爲何文本分析遠比數值型分析重要？一個實際案例，五點分析（下）》。

本文的文本挖掘部分主要涉及高頻詞統計/關鍵詞提取/關鍵詞雲、文章標題聚類、文章內容聚類、文章內容LDA主題模型分析、詞向量/關聯詞分析、ATM模型、詞彙分散圖和詞聚類分析。

4.1 關鍵詞提取

對於關鍵詞提取，筆者沒有采起詞頻統計的方法，由於詞頻統計的邏輯是：一個詞在文章中出現的次數越多，則它就越重要。於是，筆者採用的是TF-IDF（termfrequency–inverse document frequency）的關鍵詞提取方法：

它用以評估一字/詞對於一個文件集或一個語料庫中的其中一份文件的重要程度，字/詞的重要性會隨着它在文件中出現的次數成正比增長，但同時會隨着它在語料庫中出現的頻率成反比降低。

因而可知，在提取某段文本的關鍵信息時，關鍵詞提取較詞頻統計更爲可取，能提取出對某段文本具備重要意義的關鍵詞。

下面是筆者利用jieba在經預處理後的、近400MB的語料中抽取出的TOP100關鍵詞。

從宏觀角度來看，從上面能夠明顯的識別出3類關鍵詞：

公司品牌類：虎嗅網、蘋果、騰訊、蘋果、小米等；
行業領域類：行業、電商、遊戲、投資、廣告、人工智能、智能手機等；
創業、商業模式類：模式、創新、業務、運營、流量、員工等。

從微觀角度來看，居於首要位置的是「用戶」，互聯網從業者放在嘴邊的是「用戶爲王」、「用戶至上」和「以用戶爲中心」，而後是「平臺」和「企業」。

筆者選取TOP500關鍵詞來繪製關鍵詞雲。由於虎嗅的名字來源於英國當代詩人Siegfried Sassoon的著名詩句「In me the tigersniffs the rose（心有猛虎，細嗅薔薇），因此詞雲以「虎嗅薔薇」爲背景，找不到合適的虎嗅薔薇的畫面，因而用它的近親貓做爲替代，詞雲以下：

4.2 LDA主題模型分析

剛纔針對關鍵詞的分類較爲粗略，且人爲劃分，不免有失偏頗，達不到全面的效果。所以，筆者採用LDA主題模型來發現該語料中的潛在主題。關於LDA主題模型的相關原理，請參看《【乾貨】用大數據文本挖掘，來洞察「共享單車」的行業現狀及走勢》的第4部分。

通常狀況下，筆者將主題的數量設定爲10個，通過數小時的運行，獲得以下結果：

能夠看出，通過文本預處理後的語料比較純淨，經過每一個主題下的「主題詞」，能夠很容易的從這10個簇羣中辨析出若干主題，不過，其中3個主題存在雜糅的狀況（每一個topic下包含2個主題），但這不影響筆者的後續分析，主題分類以下表所示：

電商&O2O：該主題包含2個部分，即各大電商平臺（淘寶、京東等）上的零售；O2O(Online線上網店Offline線下消費)，商家經過免費開網店將商家信息、商品信息等展示給消費者，消費者在線上進行篩選服務，並支付，線下進行消費驗證和消費體驗。

巨頭戰略：主要是國內BAT三家的營收、融資、併購，以及涉足互聯網新領域方面的資訊。

用戶&社交：主要涉及用戶和社會化媒體（微博、QQ、微信、直播平臺等）方面的資訊。

創業：涉及創業人、創新模式、創業公司等一切關於創業的話題，令筆者印象最爲深入的是創業維艱。

人工智能：進入移動互聯網時代，各種線上數據的不斷積累和硬件技術的日新月異，大數據時代已然來臨，隨之而來的還有人工智能，該領域是時下國內外IT巨頭角逐的焦點。

智能手機：智能手機的普及是移動互聯網時代興起的催化劑之一，2012年以來，「東風（國內智能手機企業）」逐漸壓倒「西風（國外智能手機企業）」，國產智能手機品牌總體崛起，蘋果、小米和錘子的每一次手機發佈會總能在互聯網界引發一片熱議。

影視娛樂：影視文化產業做爲政策力挺、利潤巨大的行業，吸引着無數資本的目光。在金融資本與電影產業碰撞出「火花」的背後，是中國影視消費市場的快速崛起。國外好萊塢大片的不斷引進和票房屢創新高，直接刺激着國內影視從業者提高自身的編劇和製片水平，由此誕生了一大批影視佳做，如近三年來的《夏洛特煩惱》、《湄公河行動》、《戰狼2》。

互聯網金融：互聯網金融（ITFIN）是指傳統金融機構與互聯網企業利用互聯網技術和信息通訊技術實現資金融通、支付、投資和信息中介服務的新型金融業務模式。2011年以來至今，互聯網金融所經歷的是日新月異的實質性的金融業務發展階段，在這個過程當中，國內互聯網金融呈現出多種多樣的業務模式和運行機制。該主題下，第三個主題詞「樂視」赫然在目，從2014年年末賈躍亭宣佈樂視「SEE計劃「到2017年10月中旬，樂視網鉅虧16億，賈躍亭財富縮水400億也不到3年，「眼看他起朱樓,眼看他宴賓客…「

無人駕駛：無人駕駛是經過人工智能系統實現無人駕駛的智能汽車，它在本世紀尤爲是近5年呈現出接近實用化的趨勢，好比，谷歌自動駕駛汽車於2012年5月得到了美國首個自動駕駛車輛許可證，如今特斯拉的無人駕駛汽車已經在市場上在銷售。隨着技術上和硬件上的不斷進步，它日趨成熟，成爲國內互聯網巨頭的都想要摘得的桂冠。

遊戲&IP：網絡遊戲被指是除了互聯網金融以外撈金指數最強勁的互聯網行業，從最近"王者榮耀"成都主創團隊年終獎事件的引爆就能看出端倪，更不用說時下的流行語「吃雞」了；同時，隨着互聯網IP產業的不斷深化發展，體育、娛樂、文學等領域對版權和IP的重視程度愈來愈高，當下的互聯網+時代，IP更是呈現了多元化的發展形勢。

如下是上述各個話題在這4W多篇文章中的佔比狀況，能夠明顯的看出，虎嗅首頁上的文章對互聯網行業各大巨頭的行業動向報道較多，其次是不斷崛起的影視娛樂，除了無人駕駛方面的報道偏少之外，其餘主題方面的文章的報道量差別不大，比較均衡。

再次是各主題的文章數量在時間上的變化狀況：

上圖中，咱們能夠明顯的看出「巨頭戰略」這一話題的首頁發文量始終維持在一個較高的水平，其次是「人工智能」的話題，它在虎嗅網主頁2013年第一季度出現一個報道小高潮。值得注意的是，「互聯網金融」在2014年第3個季度的報道量較大，從中能夠獲悉這個階段的互聯網金融正處於一個爆發的階段，這個時段互金行業的重大事件有：小米投資積木盒子進軍互聯網金融（9.10）、京東發佈消費金融戰略（9.24）、螞蟻金服集團成立（10.16），以及整個2014年是「衆籌元年」，P2P步入洗牌季、以及央行密集令直指監管互聯網金融，這些事件或政策都足以引起互聯網界人士的熱議，形成這一時段聲量的驟然升起。

4.3 情緒分析&LDA主題模型交叉分析

結合上述LDA主題模型分析的結果，筆者使用基於深度學習的情緒語義分析模型（該模型有6類情緒，即喜悅、憤怒、悲傷、驚奇、恐懼和中性），對這些文章的標題進行情緒分析，得出各個文章的情緒標籤，處理結果以下表所示：

將主題和情緒維度進行交叉分析，得出下圖：

從上圖中能夠看出，各個主題下的標題的情緒以中性爲主，凸顯做者和官方的客觀和中立態度，可是在現今標題黨橫行和全民重口味的時代，擬標題上的過度中立也意味着平淡無奇，難以觸發讀者的閱讀行爲，正所謂「有性格的品牌，有情緒的營銷」，能成功挑起讀者情緒的做者絕對是高手，因此，在上圖中除了中性情緒外，居於第二位的是憤怒，狂撕狂懟，點燃讀者的情緒；再次是悲傷，在現實生活中，傷感總能引發同情與共鳴。

4.4 ATM模型

在這個部分，筆者想了解「虎嗅網上各個做家的寫做主題，分析某些牛X做家喜歡寫哪方面的文章（好比「行業洞察」、「爆品營銷」、「新媒體運營」等），以及寫做主題相似的做者有哪些。

爲此，筆者採用了ATM模型進行分析，注意，這不是自動取款機的縮寫，而是author-topicmodel：

ATM模型（author-topic model）也是「機率主題模型」家族的一員，是LDA主題模型（Latent Dirichlet Allocation ）的拓展，它能對某個語料庫中做者的寫做主題進行分析，找出某個做家的寫做主題傾向，以及找到具備一樣寫做傾向的做家，它是一種新穎的主題探索方式。

首先，筆者去除若干發佈文章數爲1的做者，再從文本中「析出」若干主題，由於文本數量有刪減，因此跟以前的主題劃分不太一致。根據各個主題下的主題詞特徵，筆者將這10個主題概括爲：「行業新聞」、「智能手機」、「創業&投融資」、「互聯網金融」、「新媒體&營銷」、「影視娛樂」、「人工智能」、「社會化媒體」、「投融資&併購」和「電商零售」。

接下來，筆者將會對一些本身感興趣的做者的寫做主題及其相關做者進行必定的分析。

首先是錘子科技的創始人羅永浩，筆者一直認爲他是一個奇人，以前看到他在虎嗅網上有署名文章，因此想看他在虎嗅網上寫了啥：

從老羅的寫做主題及其機率分佈來看，他比較傾向於寫創業、融資、智能手機和新媒體營銷方面的文章，這個比較符合大衆認知，由於善打情懷牌的老羅喜歡談創業、談本身對於手機的理解，並且因爲本身鮮明的個性和犀利的語言，他經常在爲本身的錘子品牌代言。

根據文檔ID，筆者找到了他發佈的這幾篇文章：

單看標題，ATM模型仍是蠻聰明的，能從老羅的文章中學習到了他的寫做主題。

接下來是寫做主題與老羅相近的虎嗅網做家，他們的發佈文章數大於3篇：

接下來是虎嗅本身的媒體，主頁上發文量破萬，所涉及的寫做主題集中在「行業新聞」、「智能手機」和「新媒體&營銷」：

與其寫做主題相似的做者除了一些我的自媒體人，還包括一些媒體，如環球網、財富中文網、彭博商業週刊等。從前面的分析中能夠推測出，他們在上述3個話題上的發文量也比較大。

在這10,189篇文章裏，筆者按文檔ID隨機抽取出其中的若干篇文章的標題，粗略驗證下。而後，把這些標題繪製成獨角獸形狀的詞雲。

由上面的標題及其關鍵詞雲，預測的主題仍是比較合理的。

再看看另外兩個筆者比較感興趣的自媒體---混沌大學和21世紀經濟報道。

從上面2個圖能夠看出，混沌大學關注的領域主要是「創業&投融資」、「新媒體&營銷」方面的話題，偏向於爲創業者提供創業相關的技能；而21世紀經濟報道則更青睞「投融資&併購」、「行業新聞」和「智能手機」方面的話題，這比較符合該媒體的報道風格---分析國際形式、透視中國經濟、觀察行業動態和引導良性發展，有效地反映世界經濟格局及變化，跟蹤報道中國企業界的動態與發展。

4.5 詞彙分散圖

接下來，筆者想了解虎嗅網主頁這4W+文章中的某些詞彙在2012.05~2017.11之間的數量分佈和他們的位置信息（the locationof a word in the text），這時能夠利用Lexical dispersion plot（詞彙分散圖）進行分析，它能夠揭示某個詞彙在一段文本中的分佈狀況（Producea plot showing the distribution of the words through the text）。

筆者先將待分析的文本按時間順序進行排列，分詞後再進行Lexical DispersionPlot分析。所以，文本字數的累積增加方向與時間正向推移的方向一致。圖中縱軸表示詞彙，橫軸是文本字數，是累加的；藍色豎線表示該詞彙在文本中被說起一次，對應橫軸能看到它所處的位置信息，空白則表示無說起。藍色豎線的密集程度及起位置表明了該詞彙在某一階段的說起頻次和所在年月。

從上面的關鍵詞和主題詞中，筆者挑揀出14個詞彙進行分析，結果以下：

從上圖中能夠看出，「智能手機」、「移動支付」、「O2O」和「雲計算」這4個詞在近6年的熱度居高不下，說起頻次很高，在條柱上幾近飽和。相較之下，「互聯網教育」、「3D打印」、「在線直播」這些在虎嗅網上的報道量不大，從始至終只是零零星星的有些說起。

值得注意的是，「共享單車」在後期說起次數顯著增長，並且是爆發式的出現，這與共享單車出現比較吻合，關於共享單車方面的數據分析，請參看《【乾貨】用大數據文本挖掘，來洞察「共享單車」的行業現狀及走勢》。

4.6 詞向量/關聯詞分析---當咱們談論XX時咱們在談論什麼

基於深度神經網絡的詞向量能從大量未標註的普通文本數據中無監督地學習出詞向量，這些詞向量包含了詞彙與詞彙之間的語義關係，正如現實世界中的「物以類聚，類以羣分」同樣，詞彙能夠由它們身邊的詞彙來定義（Words can be defined by the company they keep）。

從原理上講，基於詞嵌入的Word2vec是指把一個維數爲全部詞的數量的高維空間嵌入到一個維數低得多的連續向量空間中，每一個單詞或詞組被映射爲實數域上的向量。把每一個單詞變成一個向量，目的仍是爲了方便計算，好比「求單詞A的同義詞」，就能夠經過「求與單詞A在cos距離下最類似的向量」來作到。

接下來，經過Word2vec，筆者查找出本身感興趣的若干詞彙的關聯詞，從而在虎嗅網的這個獨特語境下去解讀它們。

由此，筆者依次對「百度」、「人工智能」、「褚時健」和「羅振宇」這幾個關鍵詞進行關聯詞分析。

出來的都是與百度相關的詞彙，不是百度的產品、公司，就是百度的CEO和管理者，「搜索」二字變相的出現了不少次，它是百度起家的一大法寶。

與「AI」相關的詞彙也是很好的解釋了人工智能的細分領域和目前比較火的幾個應用場景。

與褚時健同樣，相關詞中前幾位名人（牛根生、胡雪巖、魯冠球、王永慶和宗慶後）也是名聞遐邇的商業精英，「老爺子」、「褚老」、「橙王」是外界對其的尊稱。有意思的是，褚老也有一些政治人物（毛主席和蔣委員長）那樣的英雄氣概，其人其事大有「東隅已逝，桑榆非晚」、「待從頭，收拾舊山河」的豁達精神和樂觀主義！

再就是資深媒體人和傳播專家羅振宇了，「知識變現」的踐行者，他的許多看法都能顛覆羣衆原有的觀念。與羅胖相相似的人還有申音（互聯網真人秀《怪傑》的創始人和策劃人，羅振宇的創業夥伴）、吳曉波（吳曉波頻道和社羣的創始人）、Papi醬（知名搞笑網紅）、馬東（現「奇葩說」主持人）、李翔（獲得APP上《李翔商業內參》的推出者）、姬十三（果殼網創始人）、李笑來（財務自由知名佈道者）、吳伯凡（詞沒切全，《21世紀商業評論》發行人，做品有《冬吳相對論》和《伯凡日知錄》）…

4.7 對互聯網百強公司旗下品牌的詞聚類與詞分類

2016年互聯網百強企業的互聯網業務收入總規模達到1.07萬億元，首次突破萬億大關，同比增加46.8%，帶動信息消費增加8.73%。數據顯示，互聯網領域龍頭企業效應愈來愈明顯，對他們的研究分析能幫助咱們更好的瞭解中國互聯網行業的發展概況和將來方向。

筆者在這裏選取2016年入選的互聯網百強企業，名單以下：

對於上述百強互聯網公司的旗下品牌名錄，筆者利用上面訓練出來的詞向量模型，用來進行下面的詞聚類和詞分類。

4.7.1 詞聚類

運用基於Word2Vec（詞向量）的K-Means聚類，充分考慮了詞彙之間的語義關係，將餘弦夾角值較小的詞彙彙集在一塊兒，造成簇羣。下圖是高維詞向量壓縮到2維空間的可視化呈現：

筆者將詞向量模型中所包含的全部詞彙劃定爲300個類別，看看這種設定下的品牌聚類效果如何。分析結果和規整以下所示：

從上述結果來看，有些分類是比較好理解的，如途風（網）和驢媽媽旅遊網，都是作旅遊的，人人貸、陸金所和拍拍貸是搞互金的，這些詞彙是在「行業的語境」裏出現的次數較多，基於同義關係聚類在一塊兒，同屬一個行業。但其中大多數的聚類不是按行業來的，而是其餘的語境中出現，且看下面這兩段話：

第一波人口紅利是從2011年開始的，這波人口是原來核心的三億重度互聯網網民，或者簡單地說，是那個年代去買小米手機和iPhone的這波用戶，固然也包括三星。他們是一二線城市裏邊比較偏年輕的這些人口。因此你看包括咱們本身投資的美圖、知乎、今日頭條、小米都是跟着這波人口起來的。

第二波人口是從2013年、2014年開始發生的，這波人口是什麼？這波人口其實是移動互聯網往三四線城市下沉形成的人口紅利，是二三四線城市裏面比較年輕的人口。你們簡單想一下買OPPO、ViVO手機的人。這波紅利帶來了包括快手、映客等一系列的興起，包括微博的二次崛起。

上面加粗加黑的品牌雖然不一樣屬一個行業，但都出如今「移動互聯網的人口紅利」的語境中，因此單從這個語境來講，它們能夠聚爲一類。

因此，上述的聚類多是因爲各種詞彙出如今不一樣的語境中，深挖的話，或許能發現到若干有趣的線索。篇幅所限，這個就留給有好奇心的讀者來完成吧。

4.7.2 詞分類

在這裏，筆者仍是利用以前訓練得出的詞向量，經過基於CNN（ ConvolutionalNeural Networks，卷積神經網絡）作文本分類，用來預測。CNN的具體原理太過複雜，筆者在這裏不作贅述，感興趣的小夥伴能夠查閱後面的參考資料。

因爲文本分類（Text Classification）跟上面的文本聚類（Text Cluster）在機器學習中分屬不一樣的任務，前者是有監督的學習（全部訓練數據都有標籤），後者是無監督的學習（數據沒有標籤），於是，筆者在正式的文本分類任務開始前，先用有標註的語料訓練模型，再來預測後續的未知的文本。

在這裏，筆者根據互聯網企業所屬細分領域的不一樣，劃分爲17個類別，每一個類別只有不多的標註語料參與訓練，也就是幾個詞罷了。對，你沒看錯，藉助外部語義信息（以前訓練好的詞向量模型，已經包含有大量的語義信息），你只須要少量的標註語料就能夠完成分類模型的訓練。

接着，筆者用以前未出如今訓練語料中的詞來檢驗效果，出來的結果是類別標籤及其對應的機率，機率值大的類別是品牌最有可能從屬的細分領域。結果以下圖所示：

上述的結果都符合你們的基本認知，小規模測試下，準確率尚可，最後來一個難度大一點的，國外一家筆者從未知曉的互聯網公司：

經過Google，筆者瞭解到Waze是以色列一家作衆包導航地圖的科技公司。前一段時間火了一把，被Google 10億美圓收購了。其產品雖然沒有Google地圖那樣強大的衛星圖片做支撐，可是能夠向用戶社區提供有關交通情況、交通事故以及測速區等實時信息（地圖彈幕即視感）。「衆包」和「實時信息」分別對應「共享經濟」和「即時通信」，比較符合預測標籤所表徵的內涵，能在必定程度上預測出該企業的業務屬性。

4.8 互聯網百強公司的共現分析

上面所作的關於互聯網百強公司的聚類分析和分類分析，看起來是「黑匣子」，其內在的機理，咱們不太容易理解。接下來，筆者將基於「圖論」來作品牌共現分析，從網絡的角度來分析百強企業品牌之間的關聯關係。

提取出上述百強企業品牌的相互共現關係，造成以下的社交網絡圖：

上圖中，每一個節點表明一我的物，線條粗細表明品牌與品牌之間的強弱連接關係，相同顏色的節點表示它們（在某種條件下）同屬於一類。節點及字體的大小表示品牌在網絡中的影響力大小，也就是「Betweenness Centrality（中介核心性），」學術的說法是「兩個非鄰接的成員間的相互做用依賴於網絡中的其餘成員，特別是位於兩成員之間路徑上的那些成員，他們對這兩個非鄰接成員的相互做用具備某種控制和制約做用」。說人話就是，更大的影響力就意味着該品牌連接了更多的合做機會和資源，以及涉足更多的互聯網領域。

先看裏面影響力TOP10，依次是騰訊、微信、百度、QQ、阿里巴巴、淘寶、京東、小米、網易和新浪微博，「騰訊系」在10強裏佔據了3個席位，實力強大，可見一斑。

再看由顏色區分出的6個簇羣：

淡藍系：騰訊、微信、百度、QQ、網易、搜狐…
洋紅系：阿里巴巴、淘寶、京東、新浪微博、天貓…
深綠系：小米、多看、MIUI、天翼閱讀…
淺綠系：樂居、房天下
明黃系：人人貸、拍拍貸
黃橙系：汽車之家、易車網、易湃

上述的分類，大部分是好理解的， 淺綠系（樂居、房天下）是作房產的，明黃系（人人貸、拍拍貸）是搞互聯網P2P金融的，而黃橙系（汽車之家、易車網、易湃）是互聯網汽車領域的品牌。

值得注意的是，深綠系的小米、多看、MIUI、天翼閱讀，以小米爲中心MIUI是小米的產品，多看（閱讀）已經被小米收購，天翼閱讀一度是小米捆綁的閱讀軟件，然而，蝸牛遊戲就跟前幾個不一樣，有一篇文章的標題是這樣的：「蝸牛發佈移動戰略，石海：不作小米第二」，它是小米在移動遊戲領域的對手…

此外，淡藍系（騰訊、微信、百度、QQ、網易、搜狐等）和洋紅系（阿里巴巴、淘寶、京東、新浪微博、天貓等）這兩個簇羣中，品牌與品牌之間的關係就比較複雜了，子母公司、兄弟品牌、跨界合做、競對關係、跨界競爭、融資及兼併，上述狀況，在這兩類簇羣中或可兼而有之。

結語

在本文的文本挖掘部分，其實已經涉及到人工智能/AI這塊的實際應用---關鍵詞提取、LDA主題模型、ATM模型屬於機器學習，情緒分析、詞向量、詞聚類和詞分類涉及到深度學習方面的知識，這些都是AI 在數據分析中的真實應用場景。

此外，本文是探索性質的數據分析乾貨文，不是數據分析報告，重在啓迪思路，授人以漁，得出具體的結論不是本文的目的，對結果的分析分散在各個部分，「文末結論控」不喜勿噴。

參考資料：

1.數據來源：虎嗅網主頁，2012.05-2017.11

2.蘇格蘭折耳喵，《數據運營|數據分析中，文本分析遠比數值型分析重要！（上）》

3.蘇格蘭折耳喵，《在運營中，爲何文本分析遠比數值型分析重要？一個實際案例，五點分析（下）》

4.蘇格蘭折耳喵，《乾貨｜如何利用Social Listening從社會化媒體中「提煉」有價值的信息？》

5.蘇格蘭折耳喵，《乾貨｜做爲一個合格的「增加黑客」，你還得重視外部數據的分析！》

6.蘇格蘭折耳喵，《以《大秦帝國之崛起》爲例，來談大數據輿情分析和文本挖掘》

7.蘇格蘭折耳喵，《【乾貨】用大數據文本挖掘，來洞察「共享單車」的行業現狀及走勢》

8.Word2vec維基百科詞條，https://en.wikipedia.org/wiki/Word2vec

9.「工信部發2016年中國互聯網企業100強名單」

10.宗成慶，《天然語言理解：（06）詞法分析與詞性標註》，中科院

11.UnderstandingConvolutional Neural Networks for NLP

12.Yoon Kim,Convolutional Neural Networks for Sentence Classification

13. Hoffman, Blei, Bach. 2010. Online learning for LatentDirichlet Allocation

14.TomasMikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient Estimation of WordRepresentations in Vector Space. In Proceedings of Workshop at ICLR, 2013.

15.TomasMikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean. DistributedRepresentations of Words and Phrases and their Compositionality. In Proceedingsof NIPS, 2013.