大数据学习总结(8)大数据场景

大数据场景一、各种标签查询

查询要素:人、事、物、单位

查询范围:A范围、B范围、...

查询结果:pic、name、data from

1、痛点:对所有文本皆有实时查询需求
2、难点:传统SQL使用WHERE子句匹配LIKE关键词,在庞大的数据字段中搜索某些想要的字,需遍历所有数据页或者索引页,查询效率底,当出现千万级以上数据时,耗时较高,无法满足实时要求
3、方案:使用全文检索方案,分布式架构,即使PB级量级也可做到毫秒级查询

大数据场景二、客户事件查询

查询条件:
城市、区域、时间跨度(20170301 00:00-20170311 00:00)数据来源:旅店 or
城市、区域、时间跨度(20170301 00:00-20170311 00:00)数据来源:旅店

查询结果:
身份证号、姓名、年龄、民族、性别、籍贯、标签、轨迹(A地||B地||C地)

1、痛点:通过多表碰撞,获得某几个维度的深度分析结果
2、难点:传统方式按照一定条件对两表进行交叉查询,一旦到达十万级,即达到百亿级查询量,无法达到准实时级
3、方案: 大数据二级索引建模和Impala大数据组件

大数据场景三、每日工作简报

A1 今天客户(累计、首次、其他)、今年客户(累计、活动)、

今天客户、from detail、to detail

A2 今日客车(累计、活动)、

A3 重点关注信息

B1 事件(编号、时间、描述、参与者、审批人)

B2 客户累计、同比、环比,客户分布,重点关注

1、痛点:重点分析,每日预警报告,实时应对
2、难点:传统方式数据库之间大表直接执行多表联查效率较低,数据分析难度较大
3、方案:使用大数据NoSql数据库,二级索引建模分析技术

大数据场景四、可视化分析展现

不同场景客户(客户、wb、路口)的可视化分析(正常、预警和高精)

1、痛点:实时数据展示,可以一目了然观察各类数据、分析各个维度发展趋势
2、难点:传统技术实时Count,资源消耗重,且当数据量较大时,延迟较大,聚合查询耗时严重
3、方案:大数据Nosql数据库、流式计算以及消息中间件,对历史数据深度分析,实时数据毫秒级处理

大数据场景五、云服务设施利用率监控

全公司:物理服务器数量、云服务器数量、利用率

分公司:服务器、cpu、内存分布

1、痛点:实时监控系统内所有硬件设备的使用情况
2、难点:设备较多,参数复杂,实时监控难度大
3、方案:大数据存储架构与NoSql数据库、离线计算结合

1、痛点:数据质量参次不齐,只能在入库后才知质量情况
2、难点:传统技术无法实时监控数据质量情况
3、方案:使用流式计算技术,实时监控入库数据质量,智能纠错报警,后续可做深度分析

1、痛点:服务运行状态无法掌控,日志数据无法有效利用
2、难点:日志一般为非结构化数据,分析难度较大
3、方案:使用大数据技术,将非结构化日志数据实时入库转化为结构数据,进行深度分析并实时监控

时间: 2024-10-12 09:55:40

大数据学习总结(8)大数据场景的相关文章

大数据学习资料,大数据学习路线×××

今天,我们正被数据包围.全球43亿部电话.20亿位互联网用户每秒都在不断地产生大量数据,人们发送短信给朋友.上传视频.用手机拍照.更新社交网站的信息.转发微博.点击广告等,使得机器产生和保留了越来越多的数据.数据的指数级增长对处于市场领导地位的互联网公司,如Facebook.谷歌.雅虎.亚马逊.腾讯等提出了挑战.它们需要对TB级别和PB级别的数据进行分析处理,以发现哪些网站更受欢迎,哪些商品更具有吸引力,哪些广告更吸引用户.传统的工具对于处理如此规模的数据集越来越无能为力. 计算机改变了人类生活

大数据学习路线×××?大数据需要学什么

这几年来大数据非常的热门,到处都有大数据分析的演讲. 演讲内容通常是宣传各种大数据分析成功的案例. 但实际上大数据该怎么做呢? 大部份的讨论似乎都仅止于怎么搜集大量的数据, 然后用个工具(hadoop/spark)后就会马上变出商机和钱来.大数据技术最重要的核心在于如何设计可以高性能处理大量数据的程式 (highly scalable programs.) 学习大数据开发不能急于求成,要分阶段分步骤来一步步完成,大概可以分为四步: 第一个阶段:了解大数据的基本概念 首先,学习一门课程的时候,要对

大数据学习计划

首先我们可以看看大数据岗位的能力要求 一 大数据工程师岗位要求 公司A: 公司B: 二 在面试岗位前,我们必然要经历岗位考核,而考核的内容主要以数据结构和算法为主. 基础算法学习网站如下: https://leetcode.com https://visualgo.net/en 三. 接下来是技能要求, 1.首先是基础编程能力: 推荐看Oracle的Java tutorial https://docs.oracle.com/javase/tutorial/index.html 2.熟悉Linux

大数据学习笔记7·城市计算(1)

前言 众所周知,快速的城市化使得很多人的生活变得现代化,同时也产生了很多挑战,如交通拥挤.能源消耗和空气污染. 城市的复杂性使得应对这些挑战看起来几乎是不可能的.近来,传感技术和大规模计算基础设施的进步产生了各种各样的大数据,从社会化媒体数据到交通数据,从地理数据到气象数据.如果使用得当,我们可以使用这些数据去应对城市中面临的各种挑战. 受到这个机会的激励,我们提出了城市计算的解决方案.它把城市传感.城市数据管理.城市数据分析和服务提供变成一个对人的生活.城市运行系统和环境进行不断重复但不显眼的

大数据学习线路图

近期开始大数据的学习,在学习之前给给自己定义了一个大数据学习路线 大数据技术学习路线指南 一.Hadoop入门,了解什么是Hadoop 1.Hadoop产生背景2.Hadoop在大数据.云计算中的位置和关系3.国内外Hadoop应用案例介绍4.国内Hadoop的就业情况分析及课程大纲介绍5.分布式系统概述6.Hadoop生态圈以及各组成部分的简介7.Hadoop核心MapReduce例子说明二.分布式文件系统HDFS,是数据库管理员的基础课程1.分布式文件系统HDFS简介2.HDFS的系统组成介

大数据学习路线

偶遇大数据学习路线,赶上一次科技革命不容易,追求下,要有所作为! 一.Hadoop入门,了解什么是Hadoop 1.Hadoop产生背景2.Hadoop在大数据.云计算中的位置和关系3.国内外Hadoop应用案例介绍4.国内Hadoop的就业情况分析及课程大纲介绍5.分布式系统概述6.Hadoop生态圈以及各组成部分的简介7.Hadoop核心MapReduce例子说明 二.分布式文件系统HDFS,是数据库管理员的基础课程 1.分布式文件系统HDFS简介2.HDFS的系统组成介绍3.HDFS的组成

史上最全“大数据”学习资源整理

史上最全"大数据"学习资源整理 当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门.当今"大数据"一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难,代表着大数据处理所需的新的技术和方法,也代表着大数据分析和应用所带来的新发明.新服务和新的发展机遇. 为了帮助大家更好深入了解大数据,云栖社区组织翻译了GitHub Aweso

贵阳如何学习大数据?大数据学习路线安排

很多朋友不知道怎么入手学习大数据,今天科多大数据带你进入大数据的世界. 一.Hadoop入门,了解什么是hadoop 1.Hadoop产生背景 2.Hadoop在大数据.云计算中的位置和关系 3.国内外Hadoop应用案例介绍 4.国内Hadoop的就业情况分析及课程大纲介绍 5.分布式系统概述 6.Hadoop生态圈以及各组成部分的简介 7.Hadoop核心MapReduce例子说明 二.分布式文件系统HDFS,是数据库管理员的基础课程 1.分布式文件系统HDFS简介 2.HDFS的系统组成介

大数据学习系列之五 ----- Hive整合HBase图文详解

引言 在上一篇 大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机) 和之前的大数据学习系列之二 ----- HBase环境搭建(单机) 中成功搭建了Hive和HBase的环境,并进行了相应的测试.本文主要讲的是如何将Hive和HBase进行整合. Hive和HBase的通信意图 Hive与HBase整合的实现是利用两者本身对外的API接口互相通信来完成的,其具体工作交由Hive的lib目录中的hive-hbase-handler-*.jar工具类来实现,通信原理如下图