pyspark中的dataframe的觀察操做

時間 2019-11-11

標籤 pyspark dataframe 觀察欄目 Spark 简体版

原文原文鏈接

來自於：http://www.bubuko.com/infodetail-2802814.html

sparkDF.show()【這是pandas中沒有的】：打印內容html

sparkDF.head()：打印前面的內容函數

sparkDF.describe()：統計信息spa

sparkDF.printSchema()：打印schema，列的屬性信息打印出來【這是pandas中沒有的】htm

sparkDF.columns：將列名打印出來圖片

【select函數，原pandas中沒有】get

sparkDF.select(‘列名1‘,‘列名2‘).show()：選擇dataframe的兩列數據顯示出來pandas

sparkDF.select ( sparkDF[‘列名1‘]+1 , ‘列名2‘ ).show()：直接對列1進行操做（值+1）打印出來spark

filter【相似pandas中dataframe的採用列名來篩選功能】select

sparkDF.filter ( sparkDF[‘value‘] == 100 ).show()：將value這一列值爲100的行篩選出來csv

distinct()函數：將重複值去除

sparkDF.count()：統計dataframe中有多少行

將評分爲100的電影數量統計出來：

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。