簡書非官方大數據（一）

時間 2020-12-30

原文原文鏈接

昨天安穩的開始了Python數據分析的學習，向右奔跑前輩問我有沒有興趣搞下簡書用戶的爬取和數據分析，像我這種愛好學習（不行，讓我吐一下），當然是答應了。說實話，這個實戰對我來說，難度很大： 1 數據的獲取：我爬取最大的數據也就是20W+，簡單的scrapy還能寫一點，但簡書用戶量巨大，第一次嘗試百萬級甚至千萬級數據的爬取。 2 數據的清洗和處理：「一個好的數據決定一個好的分析」，昨天才開始下載

>>阅读原文<<