pyspark程序 從hdfs上讀取文件,並將結果存回到hdfs

本次使用到的數據文件 導入必要的包,因爲用到的是pyspark,最好導入findspark,可以避免一些看不懂的錯誤 初始化sparkcontext,local爲本地工作方式,topapp爲隨意取的名字 從hdfs上讀取文件,並輸出第一行看數據結構方便後面操作 將text轉化爲list對象(rdd調用collect後變爲list對象) 自定義函數,將list數據按空格切開 將text2轉化爲dat
相關文章
相關標籤/搜索