spark的rdd进行groupby以后有时需要对value处理
可以这样处理:
grouped=rdd.groupBy(lambda x: x[0]).map(lambda x : (x[0], list(x[1])))
之后可以循环处理 grouped里的对象,类似:
keys=grouped.keys().collect() for key in keys: value=grouped.lookup(key)
时间: 2024-10-29 00:48:19
spark的rdd进行groupby以后有时需要对value处理
可以这样处理:
grouped=rdd.groupBy(lambda x: x[0]).map(lambda x : (x[0], list(x[1])))
之后可以循环处理 grouped里的对象,类似:
keys=grouped.keys().collect() for key in keys: value=grouped.lookup(key)