Spark -- 對DataFrame增加一列索引列(自增id列)==》(解決出現ID自增且唯一,但是不呈現自然數遞增的問題)

Spark DataFrame 添加自增id   在用Spark 處理數據的時候,經常需要給全量數據增加一列自增ID序號,在存入數據庫的時候,自增ID也常常是一個很關鍵的要素。在使用mmlspark的LightGBMRanker時也需要指定一列int/long類型的id列,下面是幾種實現方式。 方式一:利用RDD的 zipWithIndex算子,官網介紹如下 // 在原Schema信息的基礎上添加
相關文章
相關標籤/搜索