PySpark中的UDFs函數

時間 2021-01-07

標籤 PySpark PyArrow UDFs 简体版

原文原文鏈接

我們在用python原生的函數來處理迭代我們的數據，但是我們發現在處理一個比較大的dataframe可能會花費我們很久的時間。所以如果我們擁有一個集羣，那麼如何在集羣上通過Pyspark來加速我們的處理速度呢？換句話說我們如何將python函數轉化成Spark的用戶自定義函數(UDF)呢? 註冊一個UDF Pyspark UDFs跟pandas的series和dataframes的.map()和.

>>阅读原文<<