python讀取hdfs上的parquet文件

在使用python作大數據和機器學習處理過程當中,首先須要讀取hdfs數據,對於經常使用格式數據通常比較容易讀取,parquet略微特殊。從hdfs上使用python獲取parquet格式數據的方法(固然也能夠先把文件拉到本地再讀取也能夠):node 一、安裝anaconda環境。python 二、安裝hdfs3。       conda install hdfs3app 三、安裝fastparq
相關文章
相關標籤/搜索