pyspark使用-dataframe操做

1、讀取csv文件sql

1.用pandas讀取app

import pandas as pd
from pyspark.sql import SparkSession
spark=SparkSession.builder.appName("test").getOrCreate()
f=pd.read_csv("filePath")
df=spark.createDataFrame(f)

可是pandas和spark數據轉換的時候速度很慢,因此不建議這麼作ui

2.直接讀取spa

spark.read.format("csv").options(header="True",sep=",",encoding="utf-8",inferschema='true').load("path")
相關文章
相關標籤/搜索