1. 大数据目前代名词spark,是一个快速的集群计算系统,它的功能之一是streaming,支持实时的数据流,把实时数据流按时间变为离散数据流 discretized stream,其中每一个离散集合RDD resilient distributed dataset
2. 计算函数包括:flatMap: 一对多,map: 一对一, reduceByKey: 根据key合并value
3. spark的程序中,先建立计算公式,但不会执行,只有spark streaming context start之后才开始执行
4. D的问题是,如何保证在底层结构化的数据流不被割裂,比如在每个RDD做transform的时候不会失败
5. 一个spark worker/executor 需要一个thread占用一个核,他们的总数不要超过核的数目
6. 每个Dstream对应一个Receiver,每个spark receiver也需要一个thread
7. 像kafka, 可以细分多个topic,这样可以用多个Dstream去receive data stream,从而增加了并发度
时间: 2024-11-06 22:04:45