1. 崗位工作內容：數據流抓取，數據整理，數據清洗，數據分析，特徵提取；

時間 2020-12-20

原文原文鏈接

熟悉開發環境通過Xshell連接跳板服務器，在測試環境瞭解數據存儲分佈結構，及數據操作方法。爲什麼選用spark：Spark 是一種與 Hadoop 相似的開源集羣計算環境–>所有人都在拿spark與Hadoop比較，那什麼是Hadoop。 Apache Hadoop軟件庫是一個允許使用簡單編程模型跨計算機集羣處理大型數據集合的框架，其設計的初衷是將單個服務器擴展成上千個機器組成的一個集羣爲大

>>阅读原文<<