[Author]: kwu
1、MapReduce与Storm处理数据的不同:
MapReduce 处理大数据、批处理,数据是相对不变的。
Storm:流数据、实时处理,流数据在实时变化。
对流数据进行并进处理
1) 对于单机来说,使用多进程,多线程。
2) 多机同时多进程、多线程的数据处理(分布式)
2、MapReduce 与storm都是分阶段
1)map、reduce
2)storm处理的阶段 : spout、bolt
3)MR运行是会结束的,storm是永不停的相当于tomcat的服务。
4)单位时间内处理的数据量,MR大于Storm
5) stream 流时计算。需要实时处理的数据,地震的数据,电商网站的实时数据,推荐,航班。
6)需要看每个月的结果,用MR来处理
3、tuple是storm数据处理的基本单位
实现上相当于MR的KV键值对
4、spout是storm对外的接口
spout是storm数据输入的来源进入了storm处理范围之内
之后的数据交给,bolt阶段处理。
spout --> bolt (处理的单元为 tuple)
通过 oo 封装成 topology
类型MR中的JOB的概念。
5、相关配置文件
MapReduce: mapred-site.xml
storm: Storm.yaml
配置项对大小写及空格敏感
时间: 2024-10-18 11:10:53