文/黄韬 李晚龙 罗达新
随着物联网(IoT)和移动互联网技术的高速发展,人们在生产、生活中产生的信息被越来越多地转换为数据,这使得数据量呈爆炸性增长,企业和互联网数据量的增长率每年都高达50%。据Gartner预测,到2020年,全球数据量将攀升到35ZB,等于80亿块4TB硬盘所能存储的容量。所以,当前海量数据的获取已不再是问题。真正的问题在于,如此海量的数据应如何存储和读取?又应如何与智能分析技术紧密结合,从中发掘出最符合用户需求的结果?以下就从大数据存储技术说起。
大数据时代的存储应用需求
目前,大数据存储的应用主要集中在3类:(1)海量数据存储,其更强调存储的容量、效率和安全性能,是传统存储技术努力的方向;(2)快速数据读取,主要涉及数据流的管理、调度和处理,这方面的应用比较侧重于对数据的快速处理,由于互联网和物联网对数据处理速度有着强烈需求,因此技术发展较快;(3)智能数据分析,要实现定制化的智能服务,自然离不开对数据的智能分析。如今,智能数据分析工具更新速度非常快,比如,Hadoop和Spark不断有新版本发布,而各种machine learning算法库也被不断更新。
然而,传统存储厂商的产品都存在一个缺陷——忽略了智能分析技术和存储的深度融合。换句话说,他们都过于将精力集中于海量数据存储技术的提高,而没有将3大存储应用类型(海量数据存储、快速数据读取和智能数据分析)紧密结合在一起。同样,大数据公司如Linkedin和Facebook等,更关注的是利用已有硬件,实现高吞吐量的数据流和更高效的数据分析平台,而忽略了传统领域对海量数据存储技术的发展。这种技术上的分裂,很容易导致有着大数据分析需求的客户陷入如下困境:专注于数据分析的团队无法同时获得高效的数据存储技术,且将数据从传统存储云搬移到数据分析云时效率低下;而存储技术研究团队则容易脱离实际的数据应用需求,仅仅关注传统意义的数据存取速度和容量,而缺乏对数据分析团队的有效支撑。换句话说,这相当于将大数据分析需求分离给了两个团队和两个平台,导致缺乏效率和技术紧密度。
因此,仅仅拥有海量数据存储能力,并不能满足如今大数据存储的需求,融合数据存储、数据快速读取和智能分析技术才是大数据时代的发展之道。
海量存储和智能数据分析的融合
为了解决传统存储无法满足大数据时代存储需求的问题,需要进行存储技术的变革。为此,华为提出了具备高效存储和数据分析能力的智能存储平台,通过提供海量存储、快速数据读取与分发,以及智能数据分析技术,实现存储和分析的融合。这将是未来存储领域的重要发展方向之一。
智能存储的引入,将给数据的挖掘、分析和存储带来史无前例的好处。利用大数据分析技术,工业互联网每提升1%的效率,即可创造高达1万亿美元的价值;Facebook目前80%的收入都来自于对社交图谱的挖掘分析;EverString能为用户揭示潜藏的商业趋势和机会。随着物联网技术和网络媒体技术日益普及,公众参与并产生大量的网络数据,其中包含着公众在社会生活、金融服务和医疗卫生等各个方面的需求表达。如果能准确、及时地获取并理解这些数据所蕴含的信息,便可以迅速发现相关领域的下一个技术热点或事件爆发点等,从而判断出某个行业的未来走向,并为制定有效的政策提供重要的辅助决策依据。
打造智能存储平台的关键技术
将智能分析应用到存储中,可以高效融合存储的原始数据,并在此基础上挖掘、提取关键信息,在支持应用存储需求的同时,可以有效提升存储系统的效能。因此,华为从以下几个关键技术入手,打造高效的智能存储平台。
融合智能分析技术。将数据分析和存储技术相结合,可以提供比传统存储更为高效的存储模式。华为的智能存储平台不仅提供常见的存储能力,如HDFS、database等,而且通过结合Kafka、Spark、各种流处理框架(Samza、Spark streaming等),以及支持多种数据分析算法的库(机器学习算法库、图像处理算法库等),提供了高效和多样化的数据分析能力,满足客户对数据分析的不同需求。同时,这些数据分析能力和存储技术在同一个平台上被紧密结合,实现了使用效率的提升。
融合存储系统的架构。目前存储系统的架构多种多样,如何融合这些架构并在这些架构之间互相传输数据,是华为的智能存储平台需要解决的问题之一。这种架构的融合包括两个层面:资源层面和系统层面。在资源层面,我们将通过异构资源管理、统一命名空间和隔离保证等方式对集群资源进行统一管理和分配;在系统层面,我们将支持多维语义数据并灵活使用具有不同格式的存储系统,比如KV、relation、graph、file和object等,同时支持不同存储系统间的主动数据流动和转换,比如在NAS、OSD、SAN和Cloud等存储系统间传输数据。
提供丰富的数据存取语义与服务能力。为了给用户提供更加方便和快捷的存储服务,华为的智能存储平台需要具备多样化的存储方式和服务能力,以满足用户的各种需求。这些服务包括:提供多样化的存储方式,比如文件存储、块存储、对象存储和云存储;提供内容搜索和文档生命周期管理服务;支持层次化的SLO(性能、可用性和可靠性);以可视化的方式展现数据价值。
以应用需求驱动存储技术发展
不同的应用类型对数据的存储和分析需求各不相同,为客户提供定制化的服务,无疑要比统一的存储平台更能满足客户的使用需求。华为智能存储平台从应用角度出发,为不同应用的需求提供差异化、由应用驱动的智能存储业务,比如数据感知的高效存储引擎(DAE,Data Aware Engine)就是一个应用驱动的存储实例。
传统存储中,应用产生的异构多源数据,比如医疗数据(影像数据、医生处方、药物使用效果和护士查房记录等),同一位病人会被处理成不同格式并使用图片数据库、KV系统、关系型数据库和文件系统等进行存储。但由于存在系统壁垒,不同系统之间的数据难以被融合使用和分析,大大降低了隐含数据的信息和价值的提取效果。数据感知的高效存储引擎将可以对数据的价值和提取发挥重要作用。比如:
通过交叉存储系统通道(Cross Storage System Access),可以在数据写入时由统一的存储引擎进行数据形式化,并为不同类型的数据选择最优的底层存储系统,在查询和处理时由统一的存储引擎寻找最合适的数据进行返回。
通过智能分级和传输(Smart Layout Tier & Transfer)特性,支持数据在热、温和冷等层级间纵向或者横向流动,以方便对数据进行处理。
通过非结构化数据分析(Unstructured Data Analysis)工具,可以进行智能分析决策和深入挖掘。
通过内嵌的历史日志通道(Access History Logging),记录多维和多源数据的存取行为,可以支持智能分析决策模块进行深度分析与挖掘以及流处理线分析。华为正是通过这种定制化的服务,来满足应用的实际需求。
综上所述,由于IoT和互联网等技术的普及引起了数据的大规模增长,数据量的急剧膨胀将极大地提高企业客户和个人用户对数据存储和分析的需求。因此,提供更加快捷、高效的存储能力,同时具备必要的数据分析功能,是存储行业主要的发展方向。华为构建的应用驱动的智能存储平台致力于在大数据时代,基于不同应用的内容,解决这些数据的分析、处理和存储需求。华为将以应用作为使能技术,针对不同的应用提供定制化的高效存储架构和模式,同时提高存储的安全性,并且降低存储成本。更进一步,华为的智能存储平台将结合各种大数据分析工具和平台,提供不同类型的数据分析服务,从而方便客户对数据进行分析和存储。通过融合智能分析和存储技术,智能存储技术将带来经济、交通和通信等领域不同程度的变革,同时也意味着其具有极为广阔的商业前景和市场价值。华为将致力于智能存储平台的研究,深耕细作,推动存储技术的进一步发展。
(更多华为资讯请关注华为开发者社区,华为自己的对外开放门户:http://developer.huawei.com/cn/ict/ ,不要问我叫啥,别人都叫我雷锋)