爲何咱們選擇parquet

爲何咱們選擇parquet 前用的hadoop,一直有個疑惑。當時沒有細究,昨天忽然想到,就又順着看了下,通過調整,原來在presto中要用1分鐘的,如今基本能夠秒級別出結果,和presto無關,和文件存儲格式有關,hdfs默認存的是文本格式,因此hive,presto,都是在文本格式上作計算,hadoop自己是全表掃,只是分佈式而以,因此咱們以前用的就是分佈式的全表掃而以,沒有發揮出數據倉庫該有
相關文章
相關標籤/搜索