pyspark程序從hdfs上讀取文件，並將結果存回到hdfs

時間 2021-01-20

標籤 spark程序從hdfs讀取文件 spark程序將結果存到hdfs中 pyspark程序從hdfs讀取文件並將結果存回hdfs 如何從hdfs中讀取、寫入數據 spark程序從hdfs讀取並寫入文件欄目 Hadoop 简体版

原文原文鏈接

本次使用到的數據文件導入必要的包，因爲用到的是pyspark，最好導入findspark，可以避免一些看不懂的錯誤初始化sparkcontext，local爲本地工作方式，topapp爲隨意取的名字從hdfs上讀取文件，並輸出第一行看數據結構方便後面操作將text轉化爲list對象（rdd調用collect後變爲list對象）自定義函數，將list數據按空格切開將text2轉化爲dat

>>阅读原文<<