json日誌文件經過spark轉存成parquet方案

收集的業務數據爲json格式,準備利用parquet 格式從新存儲到hive表,以節約空間並方便後續經過spark 或 hive 進行分析查詢。 (示例代碼是用python) 具體步驟是: 1. 用spark讀取json數據後,獲得一個dataframepython path = '/xx/xxx/xxx.json' df = sqlContext.read.json(path) 2. dataf
相關文章
相關標籤/搜索