1.選一個本身感興趣的主題(全部人不能雷同)。html
答:爬取李冰冰微博主頁信息python
2.用python 編寫爬蟲程序,從網絡上爬取相關主題的數據。程序員
3.對爬了的數據進行文本分析,生成詞雲。網絡
4.對文本分析結果進行解釋說明。app
答:文本獲取到的字符信息並非咱們想要的效果,所以,爲了達到咱們想要的效果,我就將所獲取到的文本信息,生成一個詞雲圖,這樣咱們就能夠比較直觀地看出,廣州大學地新聞網地信息主要在強調些什麼,從而達到這次爬取的目的。url
5.寫一篇完整的博客,描述上述實現過程、遇到的問題及解決辦法、數據分析思想及結論。spa
答:首先要有信心。雖然可能你看了幾個小時也沒在屏幕上打出一個三角形,或者壓根兒就沒能把程序運行起來。但相信我,幾乎全部程序員一開始都是這麼折騰過來的。code
儘可能不要系統地去啃一些東西,找一個實際的項目,直接開始就好。htm
6.最後提交爬取的所有數據、爬蟲及數據分析源代碼。blog
# -*- coding: utf-8 -*- import requests from bs4 import BeautifulSoup as bs if __name__ == '__main__': url = "https://weibo.com/libingbing?refer_flag=1001030101_" #html = getreq(url) info = gettext(url) print(info) for i in info: print(i) f = open('i.txt', 'a+',encoding='utf-8') f.write(i) f.write('\n') f.close() def gettext(url): header = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.117 Safari/537.36'} html = requests.get(url, headers=header).content soup = bs(html, 'html.parser') info = soup.select('div.newList.black01 a') a = [] for i in info: a.append(i.text) print(i.text) return a import jieba import PIL from wordcloud import WordCloud import matplotlib.pyplot as p import os info = open('i.txt', 'r', encoding='utf-8').read() text = '' text += ' '.join(jieba.lcut(info)) wc = WordCloud(font_path='C:\Windows\Fonts\STZHONGS.TTF', background_color='White', max_words=50) wc.generate_from_text(text) p.imshow(wc) # p.imshow(wc.recolor(color_func=00ff00)) p.axis("off") p.show() wc.to_file('詞雲.jpg')