All About Programming: Spark: sortBy和sortByKey函数详解 � 过往记忆

Spark: sortBy和sortByKey函数详解 � 过往记忆

　　从函数的实现可以看出，它主要接受两个函数，含义和sortBy一样，这里就不进行解释了。该函数返回的RDD一定是ShuffledRDD类型的，因为对源RDD进行排序，必须进行Shuffle操作，而Shuffle操作的结果RDD就是ShuffledRDD。其实这个函数的实现很优雅，里面用到了RangePartitioner，它可以使得相应的范围Key数据分到同一个partition中，然后内部用到了mapPartitions对每个partition中的数据进行排序，而每个partition中数据的排序用到了标准的sort机制，避免了大量数据的shuffle。下面对sortByKey的使用进行说明：

Read full article from Spark: sortBy和sortByKey函数详解 � 过往记忆

Spark: sortBy和sortByKey函数详解 � 过往记忆

No comments:

Post a Comment

Labels

Popular Posts