我爬取豆瓣影評，告訴你《復仇者聯盟3》在講什麼？

時間 2019-12-04

標籤豆瓣影評告訴復仇者聯盟3 什麼简体版

原文原文鏈接

Python（發音：英[?pa?θ?n]，美[?pa?θɑ:n]），是一種面向對象、直譯式電腦編程語言，也是一種功能強大的通用型語言，已經具備近二十年的發展歷史，成熟且穩定。它包含了一組完善並且容易理解的標準庫，可以輕鬆完成不少常見的任務。它的語法很是簡捷和清晰，與其它大多數程序設計語言不同，它使用縮進來定義語句。html

Python支持命令式程序設計、面向對象程序設計、函數式編程、面向切面編程、泛型編程多種編程範式。與Scheme、Ruby、Perl、Tcl等動態語言同樣，Python具有垃圾回收功能，可以自動管理存儲器使用。它常常被看成腳本語言用於處理系統管理任務和網絡程序編寫，然而它也很是適合完成各類高級任務。Python虛擬機自己幾乎能夠在全部的做業系統中運行。使用一些諸如py2exe、PyPy、PyInstaller之類的工具能夠將Python源代碼轉換成能夠脫離Python解釋器運行的程序。python

《復仇者聯盟3：無限戰爭》於 2018 年 5 月 11 日在中國大陸上映。截止 5 月 16 日，它累計票房達到 15.25 億。這票房紀錄已經超過了漫威系列單部電影的票房紀錄。不得不說，漫威電影已經成爲一種文化潮流。linux

先貼海報欣賞下：web

圖片來自時光網數據庫

復聯 3 做爲漫威 10 年一劍的收官之做。漫威確認下了不少功夫，給咱們奉獻一部精彩絕倫的電影。本身也利用週末時間去電影院觀看。看完以後，我的以爲不管在打鬥特效方面仍是故事情節，都是給人愉悅的享受。同時，電影還保持以往幽默搞笑的風格，常常能把觀衆逗得鬨堂大笑。若是尚未去觀看的朋友，能夠去電影院看看，確實值得一看。編程

本文經過 Python 製做網絡爬蟲，爬取豆瓣電影評論，並分析而後製做豆瓣影評的雲圖。flask

1 分析瀏覽器

先經過影評網頁肯定爬取的內容。我要爬取的是用戶名，是否看過，五星評論值，評論時間，有用數以及評論內容。微信

點擊查看大圖cookie

而後肯定每頁評論的 url 結構。

第二頁 url 地址：

點擊查看大圖第三頁 url 地址：

點擊查看大圖

最後發現其中的規律：除了首頁，後面的每頁 url 地址中只有 start= 的值逐頁遞增，其餘都是不變的。

2 數據爬取

本文爬取數據，採用的主要是 requests 庫和 lxml 庫中 Xpath。豆瓣網站雖然對網絡爬蟲算是很友好，可是仍是有反爬蟲機制。若是你沒有設置延遲，一會兒發起大量請求，會被封 IP 的。另外，若是沒有登陸豆瓣，只能訪問前 10 頁的影片。所以，發起爬取數據的 HTTP 請求要帶上本身帳號的 cookie。搞到 cookie 也不是難事，能夠經過瀏覽器登陸豆瓣，而後在開發者模式中獲取。

python學習路線分三大階段：基礎-進階-框架-項目實戰

基礎第一階段：基礎Python的理解。基礎第二階段面對對象編程（注重編程能力）

基礎第三階段面向對象「設計思想」-封裝-繼承。基礎第四階段python高級專題。

進階班第一階段：linux基礎。第二：python web工具。第三python部署工具。

第四關係型數據庫。第五Python web框架基礎原理。

框架階段.python web開發第一階段web.py。基礎第二Django基礎。

第三flask基礎。第四tornado基礎，

項目實戰：我的博客系統-微信開發-企業OA系統=網盤系統。

我想從影評首頁開始爬取，爬取入口，而後依次獲取頁面中下一頁的 url 地址以及須要爬取的內容，接着繼續訪問下一個頁面的地址。

import jieba

import requests

import pandas as pd

import time

import random

from lxml import etree

def start_spider():

base_url = 'https://movie.douban.com/subject/24773958/comments'

start_url = base_url + '?start=0'

number = 1

html = request_get(start_url)

while html.status_code == 200:

# 獲取下一頁的 url

selector = etree.HTML(html.text)

nextpage = selector.xpath("//div[@id='paginator']/a[@class='next']/@href")

nextpage = nextpage[0]

next_url = base_url + nextpage

# 獲取評論

comments = selector.xpath("//div[@class='comment']")

marvelthree = []

for each in comments:

marvelthree.append(get_comments(each))

data = pd.DataFrame(marvelthree)

# 寫入csv文件,'a+'是追加模式

try:

if number == 1:

csv_headers = ['用戶', '是否看過', '五星評分', '評論時間', '有用數', '評論內容']

data.to_csv('./Marvel3_yingpping.csv', header=csv_headers, index=False, mode='a+', encoding='utf-8')

else:

data.to_csv('./Marvel3_yingpping.csv', header=False, index=False, mode='a+', encoding='utf-8')

except UnicodeEncodeError:

print("編碼錯誤, 該數據沒法寫到文件中, 直接忽略該數據")

data = []

html = request_get(next_url)

我在請求頭中增長隨機變化的 User-agent, 增長 cookie。最後增長請求的隨機等待時間，防止請求過猛被封 IP。

def request_get(url):

'''

使用 Session 可以跨請求保持某些參數。

它也會在同一個 Session 實例發出的全部請求之間保持 cookie

'''

timeout = 3

UserAgent_List = [

"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36",

"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.1 Safari/537.36",

"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.0 Safari/537.36",

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.0 Safari/537.36",

"Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2226.0 Safari/537.36",

"Mozilla/5.0 (Windows NT 6.4; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2225.0 Safari/537.36",

"Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2225.0 Safari/537.36",

"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2224.3 Safari/537.36",

"Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.93 Safari/537.36",

"Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2049.0 Safari/537.36",

"Mozilla/5.0 (Windows NT 4.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2049.0 Safari/537.36",

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.67 Safari/537.36",

"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.67 Safari/537.36",

"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.3319.102 Safari/537.36",

"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.2309.372 Safari/537.36",

"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.2117.157 Safari/537.36",

"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.47 Safari/537.36",

"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1866.237 Safari/537.36",

]

header = {

'User-agent': random.choice(UserAgent_List),

'Host': 'movie.douban.com',

'Referer': 'https://movie.douban.com/subject/24773958/?from=showing',

}

session = requests.Session()

cookie = {

'cookie': "你的 cookie 值",

}

time.sleep(random.randint(5, 15))

response = requests.get(url, headers=header, cookies=cookie_nologin, timeout = 3)

if response.status_code != 200:

print(response.status_code)

return response

最後一步就是數據獲取：

def get_comments(eachComment):

commentlist = []

user = eachComment.xpath("./h3/span[@class='comment-info']/a/text()")[0] # 用戶

watched = eachComment.xpath("./h3/span[@class='comment-info']/span[1]/text()")[0] # 是否看過

rating = eachComment.xpath("./h3/span[@class='comment-info']/span[2]/@title") # 五星評分

if len(rating) > 0:

rating = rating[0]

comment_time = eachComment.xpath("./h3/span[@class='comment-info']/span[3]/@title") # 評論時間

if len(comment_time) > 0:

comment_time = comment_time[0]

else:

# 有些評論是沒有五星評分, 需賦空值

comment_time = rating

rating = ''

votes = eachComment.xpath("./h3/span[@class='comment-vote']/span/text()")[0] # "有用"數

content = eachComment.xpath("./p/text()")[0] # 評論內容

commentlist.append(user)

commentlist.append(watched)

commentlist.append(rating)

commentlist.append(comment_time)

commentlist.append(votes)

commentlist.append(content.strip())

# print(list)

return commentlist

3 製做雲圖

由於爬取出來評論數據都是一大串字符串，因此須要對每一個句子進行分詞，而後統計每一個詞語出現的評論。我採用jieba庫來進行分詞，製做雲圖，我則是將分詞後的數據丟給網站worditout處理。

def split_word():

with codecs.open('Marvel3_yingpping.csv', 'r', 'utf-8') as csvfile:

reader = csv.reader(csvfile)

content_list = []

for row in reader:

try:

content_list.append(row[5])

except IndexError:

pass

content = ''.join(content_list)

seg_list = jieba.cut(content, cut_all=False)

result = ' '.join(seg_list)

print(result)

最後製做出來的雲圖效果是：

點擊查看大圖

"滅霸"詞語出現頻率最高，其實這一點不意外。由於復聯 3 整部電影的故事情節大概是，滅霸在宇宙各個星球上收集 6 顆無限寶石，而後每一個超級英雄爲了防止滅霸毀滅整個宇宙，組隊來阻止滅霸。

Python能夠作什麼？

web開發和爬蟲是比較適合零基礎的

自動化運維運維開發和自動化測試是適合已經在作運維和測試的人員

大數據數據分析這方面是很須要專業的專業性相對而言比較強

科學計算通常都是科研人員在用

機器學習和人工智能首先學歷要求高其次高數要求高難度很大

我有一個微信公衆號，常常會分享一些python技術相關的乾貨；若是你喜歡個人分享，能夠用微信搜索「python語言學習」關注

歡迎你們加入千人交流答疑羣：588+090+942

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。