年前有些放纵了,一直没有完成该篇的节奏感。推延至今
大数据量面前单机显然是不合适的,所以尝试将前述逻辑 并发化 考虑 以适应 分布式处理。
回溯数据清洗流程,
1.流量数据区间圈定,
2.流量数据按要求筛选聚合
3.各汇总表按唯一标志联合
在初步猜想中,需要一张包含所有唯一标志的主表,这也是减少匹配次数的关键。
主表的产生不应该到流程第三步,也完全没有必要。
清洗流程第二步流量数据聚合的同时,完全可以完成 该主表的去重和排序。
接下来按照 记录总数均匀分发主表数据到个 executor,并记录下个executor的首尾,
于是在清洗流程第三步中,将个聚合表按标志分发到相应executor,并按初步猜想中的逻辑完成表的组合。
后续会考虑,尝试实现和验证实际效果。
原文地址:https://www.cnblogs.com/qq1144054302/p/10381334.html
时间: 2024-11-10 11:19:57