pyspark中的dataframe的觀察操做

來自於:http://www.bubuko.com/infodetail-2802814.html

一、讀取:

  • sparkDF = spark.read.csv(path)
  • sparkDF = spark.read.text(path)

二、打印:

sparkDF.show()【這是pandas中沒有的】:打印內容html

sparkDF.head():打印前面的內容函數

sparkDF.describe():統計信息spa

sparkDF.printSchema():打印schema,列的屬性信息打印出來【這是pandas中沒有的】htm

sparkDF.columns:將列名打印出來圖片

三、選擇列

【select函數,原pandas中沒有】get

sparkDF.select(‘列名1‘,‘列名2‘).show():選擇dataframe的兩列數據顯示出來pandas

sparkDF.select ( sparkDF[‘列名1‘]+1 , ‘列名2‘ ).show():直接對列1進行操做(值+1)打印出來spark

技術分享圖片

 

四、篩選列:

filter【相似pandas中dataframe的採用列名來篩選功能】select

sparkDF.filter ( sparkDF[‘value‘] == 100 ).show():將value這一列值爲100的行篩選出來csv

技術分享圖片

 

 五、計算不重複值以及統計dataframe的行數

 distinct()函數:將重複值去除

sparkDF.count():統計dataframe中有多少行

技術分享圖片

將評分爲100的電影數量統計出來:

技術分享圖片

相關文章
相關標籤/搜索