pyspark處理數據技巧

1. 求某一列的最小最大值 data.agg(F.min("dt"), F.max("dt")).show() 或者用data.describe(['dt']).show() 2. 普通pandas轉成pyspark的pandas spark_train = spark.createDataFrame(X_train)   3. VectorAssembler之後的features的格式 是str
相關文章
相關標籤/搜索