Python小說文本挖掘正則表達式分析案例

時間 2020-04-06

原文原文鏈接

原文連接：http://tecdat.cn/?p=5673

數據集

約瑟夫海勒捕捉22是我最喜歡的小說。我最近讀完了 ,並喜歡整本書中語言的創造性使用和荒謬人物的互動。對於個人可視化類，選擇文本做爲個人最終項目「數據集」是一個簡單的選擇。該文有大約175,000個單詞，分爲42章。我在網上找到了這本書的原始文本版本並開始工做。正則表達式

我使用正則表達式和簡單字符串匹配的組合在Python中解析文本。算法

我shiny在R中以交互方式可視化這些數據集。測試

地中海旅行

這種可視化映射了整本書中提到的地中海周圍位置的說起。編碼

人物形象

該圖基本上表明瞭書中提到不一樣字符的時間序列。加密

我將數據繪製爲標準散點圖，章節爲x軸（由於它與時間類似），字符爲離散y軸，垂直條爲標記。spa

人物共同出現

用於構建此可視化的數據與前一箇中使用的數據徹底相同，但須要進行大量轉換才能將其轉換爲可表示這些模式的形式。 blog

聚類爲此圖添加了另外一個維度。在整本書上應用分層聚類方案，以嘗試在角色中找到社區。再次，使用章節（1表示如今，0表示不存在）和42維歐幾里德距離用於使用完整連接AGNES算法對字符進行聚類。對不一樣聚類方案和距離測量的樹狀圖進行人工檢查發現，這是最「水平」，由於更頻繁出現的角色占主導地位的方案最少。這是六個簇的樹形圖：排序