2018年是改革開放四十週年,也是互聯網發展的重要一年。經歷了區塊鏈,人工智能潮的互聯網行業逐漸迎來了冬天。這一年裏有無數的事件發生着,正好學了python數據處理相關,那麼就用python對18年的互聯網事件進行一個簡單的記錄與分析。這裏主要用了wordcloud和jieba。python
首先來看一個數據表,這份excel表單幾乎就是2018整年互聯網圈發生的全部事件了。區塊鏈
那麼如今想要分析着數萬條數據,能夠用什麼方法呢,咱們首先會想到用可視化來呈現,圖表展現也許會更清晰,可是這裏咱們選擇用python中簡單易用的詞雲來展現。編碼
廢話就很少說了,直接貼代碼。人工智能
1 #copyright by pricechen 2 #幾個經常使用庫 3 import xlrd 4 import jieba 5 from wordcloud import WordCloud,ImageColorGenerator 6 import codecs 7 import imageio 8 9 #先把文件地址寫好,對文件保存地址有需求的同窗能夠自行設置一下輸入input 10 Savepath = 'E:\\pricechen\\data\\' 11 filename = '2018大事件記錄.xlsx' 12 month = ['01', '02', '03', '04', '05', '06', '07', '08', '09', '10', '11', '12'] 13 14 #對內容進行封裝 15 def fileHandle(Savepath,filename,month): 16 #打開excel文件 17 book = xlrd.open_workbook(Savepath+filename) 18 sheet = book.sheet_by_name('Sheet') 19 20 #處理新聞數據 21 for i in range(0,sheet.nrows): 22 #每一行內容 23 textLine = sheet.row_values(i) 24 # print(textLine) 25 #遍歷月份 26 for data in month: 27 if textLine[0][5:7]==data: 28 #這裏進行異常處理 29 try: 30 #寫入以月份命名的文件夾 31 with open(Savepath+ data + '.txt', 'a+') as f: 32 f.write(textLine[1]+' ') 33 except FileNotFoundError:#文件不存在異常 34 continue 35 except UnicodeEncodeError:#編碼異常 36 continue 37 38 def WCHandle(Savepath,month): 39 #處理詞雲圖片 40 for i in range(0,12): 41 imagePath = Savepath + 'background\\' + month[i] + '.jpg' 42 textPath = Savepath + month[i] +'.txt' 43 with codecs.open(textPath) as f: 44 text = f.read() 45 # cut_text = ' '.join(jieba.cut(text))#使用jieba分詞獲得詞語字符串
#這裏本來使用的是jieba分詞,可是後面以爲分詞以後展示的數據反而沒有那麼直觀 46 cut_text = ' '.join(text.split(',')) #改用了將每一句話展示到詞雲裏面 47 try: #背景圖片選擇,這裏最後由於序號錯誤須要加一個異常處理,選擇第00張圖片 48 background = imageio.imread(imagePath) 49 except FileNotFoundError: 50 background = imageio.imread('E:\\pricechen\\data\\background\\00.jpg') 51 #設置詞雲參數 52 cloud = WordCloud(font_path = \ 53 Savepath+'WenYue-FangTangTi-NC-2.otf', 54 background_color = 'white',mask = background,\ 55 max_words=2000,max_font_size = 40,\ 56 scale=10, #清晰度,這裏考慮電腦配置,只選擇15 57 ) 58 word_cloud = cloud.generate(cut_text) 59 #保存,使用原圖保存方式 60 word_cloud.to_file(Savepath+'2018\\Chinese'+month[i]+'.jpg') 61
#這邊就是自動化處理了 62 if __name__=='__main__': 63 fileHandle(Savepath,filename,month) 64 WCHandle(Savepath,month)
以上就是全部代碼了,一共六十行左右代碼,就能處理近六萬條數據。spa
十二個月的數據,每月都處理爲一張詞雲圖,每張詞雲圖都用了一個省的地圖做爲模板。3d
來看看處理後的結果,我就直接上圖了,由於圖片比較大(保存的清晰度較高),這裏就只放兩張圖。excel
須要2018年互聯網大事件數據的能夠私信我,代碼有錯誤的話歡迎指正哦。code