喜歡看電影來哦！教你若是使用Python網絡爬蟲爬取豆瓣高分電影！

時間 2020-10-02

標籤喜歡若是使用 python 網絡爬蟲豆瓣高分欄目 Python 简体版

原文原文鏈接

【1、項目背景】javascript

豆瓣電影提供最新的電影介紹及評論包括上映影片的影訊查詢及購票服務。能夠記錄想看、在看和看過的電影電視劇、順便打分、寫影評。極大地方便了人們的生活。java

今天以電視劇（美劇）爲例，批量爬取對應的電影，寫入csv文檔。用戶能夠經過評分，更好的選擇本身想要的電影。web

【2、項目目標】json

獲取對應的電影名稱，評分，詳情連接，下載電影的圖片，保存文檔。服務器

【3、涉及的庫和網站】網絡

一、網址以下：app

https://movie.douban.com/j/search_subjects?type=tv&tag=%E7%BE%8E%E5%89%A7&sort=recommend&page_limit=20&page_start={}

二、涉及的庫：requests****、fake_useragent、json****、csv函數

三、軟件：PyCharm優化

【4、項目分析】網站

一、如何多網頁請求?

點擊下一頁時，每增長一頁paged自增長20，用{}代替變換的變量，再用for循環遍歷這網址，實現多個網址請求。

二、如何獲取真正請求的地址？

請求數據時，發現頁面上並無對應數據。其實豆瓣網採用javascript動態加載內容，防止採集。

1）F12右鍵檢查，找到Network，左邊菜單Name , 找到第五個數據，點擊Preview。

2）點開subjects，能夠看到 title 就是對應電影名稱。rate就是對應評分。經過js解析subjects字典，找到須要的字段。

如何網頁訪問？

https://movie.douban.com/j/search_subjects?type=tv&tag=%E7%BE%8E%E5%89%A7&sort=recommend&page_limit=20&page_start=0



https://movie.douban.com/j/search_subjects?type=tv&tag=%E7%BE%8E%E5%89%A7&sort=recommend&page_limit=20&page_start=20



https://movie.douban.com/j/search_subjects?type=tv&tag=%E7%BE%8E%E5%89%A7&sort=recommend&page_limit=20&page_start=40



https://movie.douban.com/j/search_subjects?type=tv&tag=%E7%BE%8E%E5%89%A7&sort=recommend&page_limit=20&page_start=60

當點擊下一頁時，每增長一頁page自增長20，用{}代替變換的變量，再用for循環遍歷這網址，實現多個網址請求。

【5、項目實施】

一、咱們定義一個class類繼承object，而後定義init方法繼承self，再定義一個主函數main繼承self。導入須要的庫和請求網址。

二、隨機產生UserAgent，構造請求頭，防止反爬。

三、發送請求，獲取響應，頁面回調，方便下次請求。

四、json解析頁面數據，獲取對應的字典。

五、for遍歷，獲取對應的電影名、評分、下詳情頁連接。

六、建立csv文件進行寫入，定義對應的標題頭內容，保存數據。

七、圖片地址進行請求。定義圖片名稱，保存文檔。

八、調用方法，實現功能。

九、項目優化：

1）設置時間延時。