Python爬蟲scrapy系列(一)Bilibili分佈式爬蟲

一、背景: 爬取Bilibili用戶信息及其發佈過的視頻信息,並進行數據清洗、分析、可視化 二、爬蟲思路: 利用一個粉絲多的大v用戶作爲爆點,爬取用戶信息、視頻信息 三、數據去重問題: 利用用戶粉絲的思路去爬取用戶,必然會導致用戶數據重複問題,我們可以巧妙地利用mongodb的存儲機制,利用唯一的一個字段標識,可以既增量存儲而又不重複的問題,這裏我們利用用戶id和視頻id作爲標識,數據不重複的存儲
相關文章
相關標籤/搜索