做業來源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159html
爬蟲綜合大做業瀏覽器
參考:微信
春節人口遷徙大數據報告!.net
爬了一下天貓上的Bra購買記錄,有了一些羞羞噠的發現...
Python作了六百萬字的歌詞分析,告訴你中國Rapper都在唱些啥
分析了42萬字歌詞後,終於搞清楚民謠歌手唱什麼了
十二星座的真實面目
唐朝詩人之間的關係究竟是什麼樣的?
中國姓氏排行榜
三.爬蟲注意事項
1.設置合理的爬取間隔,不會給對方運維人員形成壓力,也能夠防止程序被迫停止。
2.設置合理的user-agent,模擬成真實的瀏覽器去提取內容。
3.須要登陸
發送request.get時,帶上自定義了Cookie的headers
headers={’User-Agen‘:
'Cookie': }
4.使用代理IP
經過更換IP來達到不斷高 效爬取數據的目的。
headers = {
"User-Agent": "",
}
proxies = {
"http": " ",
"https": " ",
}
response = requests.get(url, headers=headers, proxies=proxies)
對豆瓣電影評論,評分,點贊數進行爬取並進行分析:
https://movie.douban.com/subject/26266893/comments?start=0&limit=20&sort=new_score&status=P
首先對網頁元素進行分析:
將爬取的數據存爲.csv文件:
import requests from bs4 import BeautifulSoup from fake_useragent import UserAgent import pandas as pd def getcom(url): ua = UserAgent().random headers={'User-Agent':ua} response=requests.get(url=url,headers=headers) soup=BeautifulSoup(response.text,'lxml') s=soup.find_all('div',class_='comment-item') u = [] for s1 in s: o=s1.find('span',class_='comment-info').find_all('span')[1].attrs['class'][0][7] w=s1.find('span',class_='votes').get_text() q=s1.find('span',class_='short').get_text().replace("\n", "") u.append([o,w,q]) comment = pd.DataFrame(u) comment.to_csv('comment.csv')
生成的.csv用excell打開:
生成詞雲: