Spark -- 對DataFrame增加一列索引列(自增id列)==》（解決出現ID自增且唯一，但是不呈現自然數遞增的問題）

時間 2021-01-07

原文原文鏈接

Spark DataFrame 添加自增id 在用Spark 處理數據的時候，經常需要給全量數據增加一列自增ID序號，在存入數據庫的時候，自增ID也常常是一個很關鍵的要素。在使用mmlspark的LightGBMRanker時也需要指定一列int/long類型的id列，下面是幾種實現方式。方式一：利用RDD的 zipWithIndex算子，官網介紹如下 // 在原Schema信息的基礎上添加

>>阅读原文<<