实时处理过程的一些问题,有的是大促时候发现的,有的是规划data_eye这个数据产品时候想到的,拿出来和大家一起讨论下:
- 同一个topic的处理逻辑冗余,逻辑上还有运行资源上(日志处理这块资源开销较大)
- 数据处理口径差异性控制
- 同一数据源后续处理的耦合性,尤其是数据产品开发时候的发布一个topo,可能影响较大
借鉴了数据仓库设计的模型结构以及linkedin的Samza处理思想,可以考虑使用kafka这个组件做数据回流
处理后的数据以topic的形式对外服务。更新后的处理流程如下:
方案的优点:
- 将数据处理的公用部分分离
- 对于数据产品的开发(数据源计较集中),后续的处理相对比较独立,避免一次发布影响太多其他数据的现象
- 避免处理逻辑及资源的重复开销
- 充分利用kafka的高性能及扩展性
时间: 2024-10-10 06:39:28