spark清洗離線數據

最近花了半個月時間研究了一哈scala 感受能夠作的東西仍是蠻多了。目前工做清洗40多G的數據很費勁(採用oracle作很費事),全部研究了spark來清洗離線數據。linux 廢話很少說開始程序設計:數據庫 首先我想到的是輸入 這裏採用HDFS文件。假設咱們將oracle的數據採用json格式的形式而且採用urldecode方法轉換文本(由於一些特殊字符經常會致使咱們的json文件讀取異常,全部
相關文章
相關標籤/搜索