构建应用驱动的智能存储平台

文/黄韬 李晚龙 罗达新

随着物联网(IoT)和移动互联网技术的高速发展,人们在生产、生活中产生的信息被越来越多地转换为数据,这使得数据量呈爆炸性增长,企业和互联网数据量的增长率每年都高达50%。据Gartner预测,到2020年,全球数据量将攀升到35ZB,等于80亿块4TB硬盘所能存储的容量。所以,当前海量数据的获取已不再是问题。真正的问题在于,如此海量的数据应如何存储和读取?又应如何与智能分析技术紧密结合,从中发掘出最符合用户需求的结果?以下就从大数据存储技术说起。

大数据时代的存储应用需求

目前,大数据存储的应用主要集中在3类:(1)海量数据存储,其更强调存储的容量、效率和安全性能,是传统存储技术努力的方向;(2)快速数据读取,主要涉及数据流的管理、调度和处理,这方面的应用比较侧重于对数据的快速处理,由于互联网和物联网对数据处理速度有着强烈需求,因此技术发展较快;(3)智能数据分析,要实现定制化的智能服务,自然离不开对数据的智能分析。如今,智能数据分析工具更新速度非常快,比如,Hadoop和Spark不断有新版本发布,而各种machine learning算法库也被不断更新。

然而,传统存储厂商的产品都存在一个缺陷——忽略了智能分析技术和存储的深度融合。换句话说,他们都过于将精力集中于海量数据存储技术的提高,而没有将3大存储应用类型(海量数据存储、快速数据读取和智能数据分析)紧密结合在一起。同样,大数据公司如Linkedin和Facebook等,更关注的是利用已有硬件,实现高吞吐量的数据流和更高效的数据分析平台,而忽略了传统领域对海量数据存储技术的发展。这种技术上的分裂,很容易导致有着大数据分析需求的客户陷入如下困境:专注于数据分析的团队无法同时获得高效的数据存储技术,且将数据从传统存储云搬移到数据分析云时效率低下;而存储技术研究团队则容易脱离实际的数据应用需求,仅仅关注传统意义的数据存取速度和容量,而缺乏对数据分析团队的有效支撑。换句话说,这相当于将大数据分析需求分离给了两个团队和两个平台,导致缺乏效率和技术紧密度。

因此,仅仅拥有海量数据存储能力,并不能满足如今大数据存储的需求,融合数据存储、数据快速读取和智能分析技术才是大数据时代的发展之道。

海量存储和智能数据分析的融合

为了解决传统存储无法满足大数据时代存储需求的问题,需要进行存储技术的变革。为此,华为提出了具备高效存储和数据分析能力的智能存储平台,通过提供海量存储、快速数据读取与分发,以及智能数据分析技术,实现存储和分析的融合。这将是未来存储领域的重要发展方向之一。

智能存储的引入,将给数据的挖掘、分析和存储带来史无前例的好处。利用大数据分析技术,工业互联网每提升1%的效率,即可创造高达1万亿美元的价值;Facebook目前80%的收入都来自于对社交图谱的挖掘分析;EverString能为用户揭示潜藏的商业趋势和机会。随着物联网技术和网络媒体技术日益普及,公众参与并产生大量的网络数据,其中包含着公众在社会生活、金融服务和医疗卫生等各个方面的需求表达。如果能准确、及时地获取并理解这些数据所蕴含的信息,便可以迅速发现相关领域的下一个技术热点或事件爆发点等,从而判断出某个行业的未来走向,并为制定有效的政策提供重要的辅助决策依据。

打造智能存储平台的关键技术

将智能分析应用到存储中,可以高效融合存储的原始数据,并在此基础上挖掘、提取关键信息,在支持应用存储需求的同时,可以有效提升存储系统的效能。因此,华为从以下几个关键技术入手,打造高效的智能存储平台。

融合智能分析技术。将数据分析和存储技术相结合,可以提供比传统存储更为高效的存储模式。华为的智能存储平台不仅提供常见的存储能力,如HDFS、database等,而且通过结合Kafka、Spark、各种流处理框架(Samza、Spark streaming等),以及支持多种数据分析算法的库(机器学习算法库、图像处理算法库等),提供了高效和多样化的数据分析能力,满足客户对数据分析的不同需求。同时,这些数据分析能力和存储技术在同一个平台上被紧密结合,实现了使用效率的提升。

融合存储系统的架构。目前存储系统的架构多种多样,如何融合这些架构并在这些架构之间互相传输数据,是华为的智能存储平台需要解决的问题之一。这种架构的融合包括两个层面:资源层面和系统层面。在资源层面,我们将通过异构资源管理、统一命名空间和隔离保证等方式对集群资源进行统一管理和分配;在系统层面,我们将支持多维语义数据并灵活使用具有不同格式的存储系统,比如KV、relation、graph、file和object等,同时支持不同存储系统间的主动数据流动和转换,比如在NAS、OSD、SAN和Cloud等存储系统间传输数据。

提供丰富的数据存取语义与服务能力。为了给用户提供更加方便和快捷的存储服务,华为的智能存储平台需要具备多样化的存储方式和服务能力,以满足用户的各种需求。这些服务包括:提供多样化的存储方式,比如文件存储、块存储、对象存储和云存储;提供内容搜索和文档生命周期管理服务;支持层次化的SLO(性能、可用性和可靠性);以可视化的方式展现数据价值。

以应用需求驱动存储技术发展

不同的应用类型对数据的存储和分析需求各不相同,为客户提供定制化的服务,无疑要比统一的存储平台更能满足客户的使用需求。华为智能存储平台从应用角度出发,为不同应用的需求提供差异化、由应用驱动的智能存储业务,比如数据感知的高效存储引擎(DAE,Data Aware Engine)就是一个应用驱动的存储实例。

传统存储中,应用产生的异构多源数据,比如医疗数据(影像数据、医生处方、药物使用效果和护士查房记录等),同一位病人会被处理成不同格式并使用图片数据库、KV系统、关系型数据库和文件系统等进行存储。但由于存在系统壁垒,不同系统之间的数据难以被融合使用和分析,大大降低了隐含数据的信息和价值的提取效果。数据感知的高效存储引擎将可以对数据的价值和提取发挥重要作用。比如:

通过交叉存储系统通道(Cross Storage System Access),可以在数据写入时由统一的存储引擎进行数据形式化,并为不同类型的数据选择最优的底层存储系统,在查询和处理时由统一的存储引擎寻找最合适的数据进行返回。

通过智能分级和传输(Smart Layout Tier & Transfer)特性,支持数据在热、温和冷等层级间纵向或者横向流动,以方便对数据进行处理。

通过非结构化数据分析(Unstructured Data Analysis)工具,可以进行智能分析决策和深入挖掘。

通过内嵌的历史日志通道(Access History Logging),记录多维和多源数据的存取行为,可以支持智能分析决策模块进行深度分析与挖掘以及流处理线分析。华为正是通过这种定制化的服务,来满足应用的实际需求。

综上所述,由于IoT和互联网等技术的普及引起了数据的大规模增长,数据量的急剧膨胀将极大地提高企业客户和个人用户对数据存储和分析的需求。因此,提供更加快捷、高效的存储能力,同时具备必要的数据分析功能,是存储行业主要的发展方向。华为构建的应用驱动的智能存储平台致力于在大数据时代,基于不同应用的内容,解决这些数据的分析、处理和存储需求。华为将以应用作为使能技术,针对不同的应用提供定制化的高效存储架构和模式,同时提高存储的安全性,并且降低存储成本。更进一步,华为的智能存储平台将结合各种大数据分析工具和平台,提供不同类型的数据分析服务,从而方便客户对数据进行分析和存储。通过融合智能分析和存储技术,智能存储技术将带来经济、交通和通信等领域不同程度的变革,同时也意味着其具有极为广阔的商业前景和市场价值。华为将致力于智能存储平台的研究,深耕细作,推动存储技术的进一步发展。

(更多华为资讯请关注华为开发者社区,华为自己的对外开放门户:http://developer.huawei.com/cn/ict/ ,不要问我叫啥,别人都叫我雷锋)

时间: 2024-10-24 19:02:34

构建应用驱动的智能存储平台的相关文章

智能家居平台乱战,京东欲借“超级APP”争夺控制中心

近两年,智能硬件一路走红,衍生出一系列诸如智能手环.智能路由器等设备,BAT巨头的加入更是让整个市场异常火爆,各家都在尝试以智能硬件产品为切入,在万物互联时代找到自己的新位置. 根据今年美国的CES情况来看,更多的厂商把精力聚焦在智能家居设备,以此趋于构建一个完整的智能家居平台,但是当我们见识到市场上不断推陈出新的智能设备后,就产生一个问题:谁将统一控制这些设备,担当控制中心的角色?  2014年1月,两位苹果前员工创办的智能家居公司Nest被谷歌以32亿美元的高价收购,当时关于Nest的讨论甚

行业数字化转型攻略:华为云智能应用平台3.0解读

?刚刚过去的华为生态合作伙伴大会2019,华为云提出:由"三引擎"驱动全行业数字化转型与智能升级.其中"智能应用平台"作为重要引擎之一,致力于提供以应用为中心的端边云全栈服务,让企业应用上云更简单,数字化转型更智能. 在大会期间,华为云BU PaaS产品部总经理廖振钦正式发布了"华为云智能应用平台3.0",并现场展示全球首个容器多云&混合云解决方案. 华为云发布"华为云智能应用平台3.0" 华为云智能应用平台,构建在云

奇点云数据中台技术汇(一)DataSimba——企业级一站式大数据智能服务平台

在这个“数据即资产”的时代,大数据技术和体量都有了前所未有的进步,若企业能有效使用数据,让数据赚钱,这必将成为企业数字化转型升级的有力武器. 奇点云自研的一站式大数据智能服务平台——DataSimba,旨在提供数据采集.数据加工.数据治理.数据规范.数据资产.数据服务等全链路的产品+技术+方法论服务,构建面向业务应用的大数据智能平台.其主要核心模块包括了数据开发套件.数据治理套件.数据服务引擎.数据智能.数据安全. 1.数据采集 数据采集作为数据中台第一个环节,不仅仅是要“采集”,也要将数据合理

奇点云数据中台技术汇(一) DataSimba——企业级一站式大数据智能服务平台

在这个"数据即资产"的时代,大数据技术和体量都有了前所未有的进步,若企业能有效使用数据,让数据赚钱,这必将成为企业数字化转型升级的有力武器. 奇点云自研的一站式大数据智能服务平台--DataSimba,旨在提供数据采集.数据加工.数据治理.数据规范.数据资产.数据服务等全链路的产品+技术+方法论服务,构建面向业务应用的大数据智能平台.其主要核心模块包括了数据开发套件.数据治理套件.数据服务引擎.数据智能.数据安全. 1.数据采集 数据采集作为数据中台第一个环节,不仅仅是要"采

如何构建一个有效的服务治理平台

本文我们重点讨论如何构建一个有效的服务治理平台,话不多说,直接切入整体.构建服务治理平台基于“管理”,“度量”,“管控”三个层面统筹考虑安排.具体来讲,又可以分为六个层次来考虑问,分别是:服务管理流程体系,服务治理平台,服务治理核心架构,服务协议规范,服务支撑工具,服务运行环境.六个层面的具体关系如下图所示: 接下来我们分别来看一下每个层面的具体内容. 01 服务治理框架 当下无论对于什么样类型的服务治理核心框架,无论是开源还是自建,在功能层面相差不大,但技术实现却有所差别.但就落地实践而言,自

携程实时智能检测平台建设实践

一.背景介绍 1.规则告警带来的问题 大部分监控平台是基于规则告警实现监控指标的预警.规则告警一般基于统计学,如某个指标同比.环比连续上升或下降到一定阈值进行告警.规则告警需要用户较为熟悉业务指标的形态,从而才能较为准确的配置告警阈值,这样带来的问题是配置规则告警非常繁琐.告警效果也比较差,需要大量人力物力来维护规则告警.当一个告警产生时,也需要耗费许多人力验证告警是否正确并确认是否需要重新调整阈值.在携程,规则告警还涉及了其它问题,比如携程光公司级别的监控平台就有三个,每个业务部门还会根据自己

UI标签库专题五:JEECG智能开发平台 Tabs(选项卡父标签)

mnesia在频繁操作数据的过程可能会报错:** WARNING ** Mnesia is overloaded: {dump_log, write_threshold},可以看出,mnesia应该是过载了.这个警告在mnesia dump操作会发生这个问题,表类型为disc_only_copies .disc_copies都可能会发生. 如何重现这个问题,例子的场景是多个进程同时在不断地mnesia:dirty_write/2 mnesia过载分析 1.抛出警告是在mnesia 增加dump

智能家居更该关注的是智能服务平台,而不是智能硬件设备

物联网IOT不仅是将一些设备连接在一起,还需要让它们能提供智能服务,以方便人们的生产.生活,提高效率,增加满意度. 物联网不是这两年才一下冒出来的,而是几十年市场技术积累改进的结果.比如工业上早就有工业自动化的说法,家庭在90年代也出现了音视频管理系统.这些都是今天我们所提的越来越红火的物联网的基石. 相比较车联网,智能家居要更复杂,难度更大.因为首先来说,汽车企业壁垒更高,往往由几个大企业控制中下游,比如通用.克莱斯勒.博世,行业标准也容易达成,而家庭电子产品,涉及的行业更多,尤其智能家居生活

苏宁人工智能研发中心智能创意平台架构成长之路(二)--大数据架构篇

苏宁人工智能研发中心智能创意平台架构成长之路(一)--长篇开篇 https://www.cnblogs.com/laoqing/p/11326132.html   我们接着第一篇继续. (这是第二篇大数据架构篇,成长之路序列会包含多篇,笔者作为这个平台的架构兼技术经理,充分讲述其中的迭代心酸之路以及中间遇到的问题和解决方案) 声明:文章不涉及公司内部技术资料的外泄,涉及的图片都是重画的简易架构图,主要通过架构的演进,讲述分享技术的迭代之路和过程. 在第二轮迭代完成后,第三轮迭代中,我们就开始做平