这个其实我前面已经记录过了,这里在记录一下。
我可以通过参数人为的来控制分区大小,增加分区中即可增加任务的并行度,并行度高自然运行的就快了嘛。
官方推荐集群中每个cpu并行的任务是2-3个(也就是2-3个partition),这样对于资源使用是最充分的
那么如何调整并行度呢。
在类似 sc.textFile 的方法中的第二个参数即可调整分区滴
时间: 2024-10-01 03:40:01
这个其实我前面已经记录过了,这里在记录一下。
我可以通过参数人为的来控制分区大小,增加分区中即可增加任务的并行度,并行度高自然运行的就快了嘛。
官方推荐集群中每个cpu并行的任务是2-3个(也就是2-3个partition),这样对于资源使用是最充分的
那么如何调整并行度呢。
在类似 sc.textFile 的方法中的第二个参数即可调整分区滴