PySpark中的UDFs函數

我們在用python原生的函數來處理迭代我們的數據,但是我們發現在處理一個比較大的dataframe可能會花費我們很久的時間。所以如果我們擁有一個集羣,那麼如何在集羣上通過Pyspark來加速我們的處理速度呢?換句話說我們如何將python函數轉化成Spark的用戶自定義函數(UDF)呢? 註冊一個UDF Pyspark UDFs跟pandas的series和dataframes的.map()和.
相關文章
相關標籤/搜索