【Python】爬蟲之豆瓣電影大數據分析

時間 2020-08-30

原文原文鏈接

平臺部分主要是hadoop分佈式系統，基於該系統融合了組件Spark，Hbase，Hive，Sqoop，Mahout等。分佈式繼而進行相關的數據分析該項目主要分爲如下幾部分:ide 1:數據採集主要是基於豆瓣電影的數據，進行分析，因此首先要爬取相關的電影數據，對應的源代碼在DouBan_Spider目錄下，主要是採用Python + BeautifulSoup + urllib進行數據採集o

>>阅读原文<<