60行python代碼分析2018互聯網大事件

2018年是改革開放四十週年,也是互聯網發展的重要一年。經歷了區塊鏈,人工智能潮的互聯網行業逐漸迎來了冬天。這一年裏有無數的事件發生着,正好學了python數據處理相關,那麼就用python對18年的互聯網事件進行一個簡單的記錄與分析。這裏主要用了wordcloud和jieba。python

首先來看一個數據表,這份excel表單幾乎就是2018整年互聯網圈發生的全部事件了。區塊鏈

那麼如今想要分析着數萬條數據,能夠用什麼方法呢,咱們首先會想到用可視化來呈現,圖表展現也許會更清晰,可是這裏咱們選擇用python中簡單易用的詞雲來展現。編碼

廢話就很少說了,直接貼代碼。人工智能

 1 #copyright by pricechen
 2 #幾個經常使用庫
 3 import xlrd  4 import jieba  5 from wordcloud import WordCloud,ImageColorGenerator  6 import codecs  7 import imageio  8 
 9 #先把文件地址寫好,對文件保存地址有需求的同窗能夠自行設置一下輸入input
10 Savepath = 'E:\\pricechen\\data\\'
11 filename = '2018大事件記錄.xlsx'
12 month = ['01', '02', '03', '04', '05', '06', '07', '08', '09', '10', '11', '12'] 13 
14 #對內容進行封裝
15 def fileHandle(Savepath,filename,month): 16     #打開excel文件
17     book = xlrd.open_workbook(Savepath+filename) 18     sheet = book.sheet_by_name('Sheet') 19 
20     #處理新聞數據
21     for i in range(0,sheet.nrows): 22         #每一行內容
23         textLine = sheet.row_values(i) 24         # print(textLine)
25         #遍歷月份
26         for data in month: 27             if textLine[0][5:7]==data: 28                 #這裏進行異常處理
29                 try: 30                     #寫入以月份命名的文件夾
31                     with open(Savepath+ data + '.txt', 'a+') as f: 32                         f.write(textLine[1]+' ') 33                 except FileNotFoundError:#文件不存在異常
34                     continue
35                 except UnicodeEncodeError:#編碼異常
36                     continue
37 
38 def WCHandle(Savepath,month): 39     #處理詞雲圖片
40     for i in range(0,12): 41         imagePath = Savepath + 'background\\' + month[i] + '.jpg'
42         textPath = Savepath + month[i] +'.txt'
43  with codecs.open(textPath) as f: 44             text = f.read() 45             # cut_text = ' '.join(jieba.cut(text))#使用jieba分詞獲得詞語字符串
         #這裏本來使用的是jieba分詞,可是後面以爲分詞以後展示的數據反而沒有那麼直觀 46 cut_text = ' '.join(text.split(',')) #改用了將每一句話展示到詞雲裏面 47 try: #背景圖片選擇,這裏最後由於序號錯誤須要加一個異常處理,選擇第00張圖片 48 background = imageio.imread(imagePath) 49 except FileNotFoundError: 50 background = imageio.imread('E:\\pricechen\\data\\background\\00.jpg') 51 #設置詞雲參數 52 cloud = WordCloud(font_path = \ 53 Savepath+'WenYue-FangTangTi-NC-2.otf', 54 background_color = 'white',mask = background,\ 55 max_words=2000,max_font_size = 40,\ 56 scale=10, #清晰度,這裏考慮電腦配置,只選擇15 57 ) 58 word_cloud = cloud.generate(cut_text) 59 #保存,使用原圖保存方式 60 word_cloud.to_file(Savepath+'2018\\Chinese'+month[i]+'.jpg') 61
  #這邊就是自動化處理了 62 if __name__=='__main__': 63 fileHandle(Savepath,filename,month) 64 WCHandle(Savepath,month)

以上就是全部代碼了,一共六十行左右代碼,就能處理近六萬條數據。spa

十二個月的數據,每月都處理爲一張詞雲圖,每張詞雲圖都用了一個省的地圖做爲模板。3d

來看看處理後的結果,我就直接上圖了,由於圖片比較大(保存的清晰度較高),這裏就只放兩張圖。excel

須要2018年互聯網大事件數據的能夠私信我,代碼有錯誤的話歡迎指正哦。code

相關文章
相關標籤/搜索