1. 崗位工做內容:數據流抓取,數據整理,數據清洗,數據分析,特徵提取;

熟悉開發環境 經過Xshell鏈接跳板服務器,在測試環境瞭解數據存儲分佈結構,及數據操做方法。 爲何選用spark:Spark 是一種與 Hadoop 類似的開源集羣計算環境–>全部人都在拿spark與Hadoop比較,那什麼是Hadoop。 Apache Hadoop軟件庫是一個容許使用簡單編程模型跨計算機集羣處理大型數據集合的框架,其設計的初衷是將單個服務器擴展成上千個機器組成的一個集羣爲大數
相關文章
相關標籤/搜索