Pyspark- pairRDD

一.鍵值對RDD-pairRDD數據庫 鍵值對RDD是Spark操做中最經常使用的RDD,它是不少程序的構成要素,由於他們提供了並行操做各個鍵或跨界點從新進行數據分組的操做接口。緩存 >>> lines=sc.textFile("file:///usr/local/spark/mycode/pairrdd/test.txt") >>> pairRDD =lines.flatMap(lambda l
相關文章
相關標籤/搜索