本次DTCC数据库技术大会是第9届了,这次大会虽然有不少公司的产品推介,总体来说还是有不少干货的。
专场较多,有选择地主要听了大数据实践跟流式计算这块。网易跟滴滴的分享比较不错。
了解到了现在大家是用spark streaming/ Flink来进行流式计算的比较多。
我们之前都是用kafka+storm+spark来做实时仓库的。
不知道spark streaming/Flink跟storm比较有什么先进之处,这个问题记下来,似乎是开发更简洁?使用SQL式开发?
对于hbase的查询,我们之前是通过solr来做二级索引,用kylin做多维分析。
但是大家现在好像用kudu+impala来做搜索的比较多,不过kylin用的也不少。但是大多没说kylin使用中的坑,有点遗憾。
说到kylin,还见到kylin的创始团队了,但是对于我提问的多表join、多字段group by效率低下的问题似乎没有解决,只说可能是我使用的方式不对。没有再追问了。
原文地址:https://www.cnblogs.com/yaoshen/p/9031301.html
时间: 2024-10-19 17:22:21