對於兩個rdd函數的理解及python3不能使用

第一個: def get_mapping(rdd,idx): return rdd.map(lambda fields:fields[idx]) .distinct().zipWithIndex().collectAsMap() 定義了一個映射函數,首先將idx列的特徵值去重,然後對每個值使用zipWithIndex()映射到一個唯一的索引。鍵是變量,值是索引 即將該段不重複的數據進行編號 c
相關文章
相關標籤/搜索