【Python】爬蟲之豆瓣電影大數據分析

平臺部分主要是hadoop分佈式系統,基於該系統融合了組件Spark,Hbase,Hive,Sqoop,Mahout等。分佈式 繼而進行相關的數據分析 該項目主要分爲如下幾部分:ide 1:數據採集 主要是基於豆瓣電影的數據,進行分析,因此首先要爬取相關的電影數據,對應的源代碼在DouBan_Spider目錄下,主要是採用Python + BeautifulSoup + urllib進行數據採集o
相關文章
相關標籤/搜索
本站公眾號
   歡迎關注本站公眾號,獲取更多信息