4大特点解析华为云数据湖“黑科技”

4大特点解析华为云数据湖“黑科技”
如果有人问数据湖是什么，我会告诉他们，是“桶装水”的集合。
随着企业业务的发展，数据出现井喷，数据量呈几何增长，数据来源和类型更加多元化。传统数据仓库就如同“桶装水商店”，已经承载不了全部水体，因此需要一个可以满足存储需求的，新的架构作为大数据的支撑。
这就是数据湖。它汇聚不同数据源的溪流，包括大量无序的非结构化数据（文本、图像、声音、网页等）。我们把它倒入数据湖，然后开始探索该数据。我们希望这是一个包含所有数据的，一个超快、易于访问的存储库，能解决集成难题的终极方法。
但实际上，存储库反而变成了一个缓慢、僵化的数据沼泽。大数据需要特殊的专长来分析数据。使用原始数据得出分析结论，将持续在数据质量和治理方面发出危险信号。业内给这种问题起了个名字，叫数据囤积障碍。
爆炸式增长的数据及数据孤岛
你应该明白了。只为了保存数据而存储数据，不是一个好主意。我们应该有一个明确的使用目的，然后只向数据供应链中导入相关的数据。当数据水库中的数据不再有用时，就直接丢弃它。没有必要把某个特别的应用程序生成的所有数据都存储下来。以物联网为例，传感器会产生奇大无比的数据量，但大多数时候其实我们只是在意一些极端值而已，比如温度超出了某个阈值范围。

首当其冲的挑战便是，数据存储、数据处理、AI组件众多。处理难度极大。

紧接着，数据孤岛问题接踵而至。

多种数据源，每种数据单独在一个库中，业务人员需要在应用层做数据集成/数据搬移，技能要求高，工程耗时长。
数据量日益增大，数据源日益增多，单个库扩容困难，性能下降，成本高，难以做跨市跨省等全量数据分析。
缺乏高级分析工具，前沿技术，如机器学习、图计算、深度学习等，未能充分利用多种数据深入挖掘价值。
用智能解决非智能
鉴于数据湖现状，我们如何利用它们为企业带来优势？这里是智能数据湖整体解决方案，包含四个关键的实践：融合，高效，易用，智能
融合——云化的hadoop

统一数据存储，再无数据孤岛；开放格式，丰富的数据类型：JSON, CSV, AVRO，图片，视频等；开放接口，兼容原生社区应用：100%兼容OBS和HDFS接口，总而言之，我们在数据湖中处理数据，试图找到新的洞察力。我们不会，任由数据处于最原始的格式，我们将优化数据。确保数据得到治理，确保数据在语义上一致，并满足业务的要求。
高效

一个字：快。实时数据实时分析， Apache CarbonData加速，万亿数据秒级响应
易用
做一个一站式、端到端开发工具，支持大数据+AI敏捷开发。可视化，代表丰富的可视化组件，图形化编辑界面，同时支持定制；而数据湖一站式开发工具，可管理多种大数据服务，实现跨服务作业编排调度；支持拖拉拽，预设10多种任务类型。
最后，对于数据标准，数据质量，数据安全的治理不可或缺。

数据湖治理：一站式治理平台（数据标准，数据质量，数据安全）
智能
重点绝不仅仅是数据，而是始终关于你要做什么工作。使用场合是什么，你可以运用什么应用程序来处理该数据以便从中受益——用智能实现高效。
智能元数据采集，统一数据视图
智能数据管理，无需人工拷贝
智能优化建议，免DBA

对数据进行“联系”，而不是“收集”。相比将数据转移到越来越大的集群或数据仓库，让数据待在数据湖进行智能化处理，来得更省钱、更容易也更高效。
如果想先试试效果，无论是企业用户，还是个人用户，华为云均提供了一组免费套餐，最高可免费试用60天，与此同时，华为云数据湖工厂（Data Lake Factory）2018年12月31日前提供免费试用，名额有限。
更多详细内容，欢迎访问：华为云学院基础课程（ edu.huaweicloud.com/courses/ ），课程获取密钥：
搜索“数据湖”即可。

原文地址：http://blog.51cto.com/13988201/2334406

时间： 2024-10-27 07:06:16

4大特点解析华为云数据湖“黑科技”

4大特点解析华为云数据湖“黑科技”的相关文章

雷军曾定下目标，2017年将聚焦5大核心战略，分别是：黑科技、新零售、国际化、人工智能和互联网金融五大部分

从量子加密到机器学习，盘点2015阿里云开放的黑科技

“站在世界看世界” 差异化破局助力华为云扩张

华为云全球首发容器多云和混合云解决方案，实现容器应用轻松跨云

华为云首批通过可信区块链评测

我对华为云的理解

【华为云技术分享】大数据容器化，头部玩家尝到了甜头

大数据是什么？华为云学院带你探索大数据之旅

【华为云技术分享】基于小熊派STM32芯片的通过MQTT上报JSON数据到华为物联网平台的自动售货机Demo解析