大数据学习总结（7）we should...

大数据场景一、各种标签查询

查询要素：人、事、物、单位

查询范围：A范围、B范围、...

查询结果：pic、name、data from

1、痛点：对所有文本皆有实时查询需求
2、难点：传统SQL使用WHERE子句匹配LIKE关键词，在庞大的数据字段中搜索某些想要的字，需遍历所有数据页或者索引页，查询效率底，当出现千万级以上数据时，耗时较高，无法满足实时要求
3、方案：使用全文检索方案，分布式架构，即使PB级量级也可做到毫秒级查询

大数据场景二、客户事件查询

查询条件：
城市、区域、时间跨度（20170301 00:00-20170311 00:00）数据来源：旅店 or
城市、区域、时间跨度（20170301 00:00-20170311 00:00）数据来源：旅店

查询结果：
身份证号、姓名、年龄、民族、性别、籍贯、标签、轨迹（A地||B地||C地）

1、痛点：通过多表碰撞，获得某几个维度的深度分析结果
2、难点：传统方式按照一定条件对两表进行交叉查询，一旦到达十万级，即达到百亿级查询量，无法达到准实时级
3、方案：大数据二级索引建模和Impala大数据组件

大数据场景三、每日工作简报

A1 今天客户（累计、首次、其他）、今年客户（累计、活动）、

今天客户、from detail、to detail

A2 今日客车（累计、活动）、

A3 重点关注信息

B1 事件(编号、时间、描述、参与者、审批人)

B2 客户累计、同比、环比，客户分布，重点关注

1、痛点：重点分析，每日预警报告，实时应对
2、难点：传统方式数据库之间大表直接执行多表联查效率较低，数据分析难度较大
3、方案：使用大数据NoSql数据库，二级索引建模分析技术

大数据场景四、可视化分析展现

不同场景客户（客户、wb、路口）的可视化分析（正常、预警和高精）

1、痛点：实时数据展示，可以一目了然观察各类数据、分析各个维度发展趋势
2、难点：传统技术实时Count，资源消耗重，且当数据量较大时，延迟较大，聚合查询耗时严重
3、方案：大数据Nosql数据库、流式计算以及消息中间件，对历史数据深度分析，实时数据毫秒级处理

大数据场景五、云服务设施利用率监控

全公司：物理服务器数量、云服务器数量、利用率

分公司：服务器、cpu、内存分布

1、痛点：实时监控系统内所有硬件设备的使用情况
2、难点：设备较多，参数复杂，实时监控难度大
3、方案：大数据存储架构与NoSql数据库、离线计算结合

1、痛点：数据质量参次不齐，只能在入库后才知质量情况
2、难点：传统技术无法实时监控数据质量情况
3、方案：使用流式计算技术，实时监控入库数据质量，智能纠错报警，后续可做深度分析

1、痛点：服务运行状态无法掌控，日志数据无法有效利用
2、难点：日志一般为非结构化数据，分析难度较大
3、方案：使用大数据技术，将非结构化日志数据实时入库转化为结构数据，进行深度分析并实时监控

时间： 2024-10-25 22:54:06

大数据学习的流程方案