爬蟲綜合大做業

做業來源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159html

爬蟲綜合大做業瀏覽器

  1. 選擇一個熱點或者你感興趣的主題。
  2. 選擇爬取的對象與範圍。
  3. 瞭解爬取對象的限制與約束。
  4. 爬取相應內容。
  5. 作數據分析與文本分析。
  6. 造成一篇文章,有說明、技術要點、有數據、有數據分析圖形化展現與說明、文本分析圖形化展現與說明。
  7. 文章公開發布。

 

參考:微信


32個Python爬蟲項目app


都是誰在反對996?運維


Python和Java薪資最高,C#最低!dom


給《流浪地球》評1星的都是什麼心態?大數據


《都挺好》彈幕數據,比劇情還精彩?url


爬了本身的微信好友,原來他們是這樣的人……spa

春節人口遷徙大數據報告!.net

七夕前消費趨勢數據

 

爬了一下天貓上的Bra購買記錄,有了一些羞羞噠的發現...

Python作了六百萬字的歌詞分析,告訴你中國Rapper都在唱些啥

分析了42萬字歌詞後,終於搞清楚民謠歌手唱什麼了

十二星座的真實面目

唐朝詩人之間的關係究竟是什麼樣的?

中國姓氏排行榜

 

三.爬蟲注意事項

1.設置合理的爬取間隔,不會給對方運維人員形成壓力,也能夠防止程序被迫停止。

  • import time
  • import random
  • time.sleep(random.random()*3)

2.設置合理的user-agent,模擬成真實的瀏覽器去提取內容。

  1. 首先打開你的瀏覽器輸入:about:version。
  2. 用戶代理:
  3. 收集一些比較經常使用的瀏覽器的user-agent放到列表裏面。
  4. 而後import random,使用隨機獲取一個user-agent
  5. 定義請求頭字典headers={’User-Agen‘:}
  6. 發送request.get時,帶上自定義了User-Agen的headers

 

3.須要登陸

發送request.get時,帶上自定義了Cookie的headers

headers={’User-Agen‘:  

'Cookie':    }

 

4.使用代理IP

經過更換IP來達到不斷高 效爬取數據的目的。

headers = {

    "User-Agent": "",

}

proxies = {

    "http": " ",

    "https": " ",

}

response = requests.get(url, headers=headers, proxies=proxies)

 

對豆瓣電影評論,評分,點贊數進行爬取並進行分析:

https://movie.douban.com/subject/26266893/comments?start=0&limit=20&sort=new_score&status=P

首先對網頁元素進行分析:

將爬取的數據存爲.csv文件:

import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
import pandas as pd

def getcom(url):
    ua = UserAgent().random
    headers={'User-Agent':ua}
    response=requests.get(url=url,headers=headers)
    soup=BeautifulSoup(response.text,'lxml')
    s=soup.find_all('div',class_='comment-item')
    u = []
    for s1 in s:
        o=s1.find('span',class_='comment-info').find_all('span')[1].attrs['class'][0][7]
        w=s1.find('span',class_='votes').get_text()
        q=s1.find('span',class_='short').get_text().replace("\n", "")
        u.append([o,w,q])
    comment = pd.DataFrame(u)
    comment.to_csv('comment.csv')

 生成的.csv用excell打開:

生成詞雲:

相關文章
相關標籤/搜索