Python爬蟲scrapy系列（一）Bilibili分佈式爬蟲

時間 2021-01-04

原文原文鏈接

一、背景：爬取Bilibili用戶信息及其發佈過的視頻信息，並進行數據清洗、分析、可視化二、爬蟲思路：利用一個粉絲多的大v用戶作爲爆點，爬取用戶信息、視頻信息三、數據去重問題：利用用戶粉絲的思路去爬取用戶，必然會導致用戶數據重複問題，我們可以巧妙地利用mongodb的存儲機制，利用唯一的一個字段標識，可以既增量存儲而又不重複的問題，這裏我們利用用戶id和視頻id作爲標識，數據不重複的存儲

>>阅读原文<<