爬蟲綜合大做業

時間 2019-11-24

標籤爬蟲綜合大做欄目網絡爬蟲简体版

原文原文鏈接

做業來源：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159html

爬蟲綜合大做業瀏覽器

選擇一個熱點或者你感興趣的主題。
選擇爬取的對象與範圍。
瞭解爬取對象的限制與約束。
爬取相應內容。
作數據分析與文本分析。
造成一篇文章，有說明、技術要點、有數據、有數據分析圖形化展現與說明、文本分析圖形化展現與說明。
文章公開發布。

參考：微信

32個Python爬蟲項目app

都是誰在反對996？運維

Python和Java薪資最高，C#最低！dom

給《流浪地球》評1星的都是什麼心態？大數據

《都挺好》彈幕數據，比劇情還精彩？url

爬了本身的微信好友，原來他們是這樣的人……spa

春節人口遷徙大數據報告！.net

七夕前消費趨勢數據

爬了一下天貓上的Bra購買記錄，有了一些羞羞噠的發現...

Python作了六百萬字的歌詞分析，告訴你中國Rapper都在唱些啥

分析了42萬字歌詞後，終於搞清楚民謠歌手唱什麼了

十二星座的真實面目

唐朝詩人之間的關係究竟是什麼樣的？

中國姓氏排行榜

三.爬蟲注意事項

1.設置合理的爬取間隔，不會給對方運維人員形成壓力，也能夠防止程序被迫停止。

import time
import random
time.sleep(random.random()*3)

2.設置合理的user-agent，模擬成真實的瀏覽器去提取內容。

首先打開你的瀏覽器輸入：about:version。
用戶代理:
收集一些比較經常使用的瀏覽器的user-agent放到列表裏面。
而後import random，使用隨機獲取一個user-agent
定義請求頭字典headers={’User-Agen‘：}
發送request.get時，帶上自定義了User-Agen的headers

3.須要登陸

發送request.get時，帶上自定義了Cookie的headers

headers={’User-Agen‘：

'Cookie': }

4.使用代理IP

經過更換IP來達到不斷高效爬取數據的目的。

headers = {

"User-Agent": "",

}

proxies = {

"http": " ",

"https": " ",

}

response = requests.get(url, headers=headers, proxies=proxies)

對豆瓣電影評論，評分，點贊數進行爬取並進行分析：

https://movie.douban.com/subject/26266893/comments?start=0&limit=20&sort=new_score&status=P

首先對網頁元素進行分析：

將爬取的數據存爲.csv文件：

import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
import pandas as pd

def getcom(url):
    ua = UserAgent().random
    headers={'User-Agent':ua}
    response=requests.get(url=url,headers=headers)
    soup=BeautifulSoup(response.text,'lxml')
    s=soup.find_all('div',class_='comment-item')
    u = []
    for s1 in s:
        o=s1.find('span',class_='comment-info').find_all('span')[1].attrs['class'][0][7]
        w=s1.find('span',class_='votes').get_text()
        q=s1.find('span',class_='short').get_text().replace("\n", "")
        u.append([o,w,q])
    comment = pd.DataFrame(u)
    comment.to_csv('comment.csv')

生成的.csv用excell打開：

生成詞雲：

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。