新技术架起 Oracle、Hadoop、NoSQL数据存储之间的桥梁

一直以来,大数据的使用远远不及大数据收集能力,就起原因主要是目前企业的数据主要分散在不同的系统或组织,大数据战略的杀手锏就是能够更深度的,更丰富的挖掘所有数据系统中的有价值的信息,从而更准确的预测客户行为,发现商业价值,但是目前很难将这些数据移到一个单独的数据存储中,另外,安全和监管问题也得不到保障,Oracle Big Data SQL的推出解决了现在面临的难题。

以下为译文:
发现企业或组织对数据管理架构的需求,Oracle推出Big Data SQL软件来整合包括Hadoop、NoSQL和Oracle数据库等在内的各种各样的数据源。
一套完整的解决方案是使Oracle的大数据设备和Big Data SQL结合起来,Cloudera的 Hadoop 分布式和Oracle自己的 NoSQL 数据库。开始时Oracle Big Data SQL只支持Apache Hive和Hadoop File System,其他供应商需要移植SQL关系数据库到Hadoop上运行。

<ignore_js_op>

Oracle提供大数据设备和Big Data SQL的一套完整解决方案

Oracle Big Data SQL产品意味着管理员在处理非关系型数据库或Hadoop中的信息时,不用再学习其他查询语言,Oracle的大数据分析主管Neil Mendelson说。

我们可以使用我们已经习惯使用的Oracle SQL语言——完整的SQL语言,我们现在可以直接访问这三个中的任何一个数据源或其中任意组合,他解释道。
类似的工具都可以在开源社区如Stinger中获得,这使得你可以使用SQL命令来查询Hadoop中数据,或使用旨在NoSQL系统上实现SQL命令的CQL语言(Cassandra查询语言)。

创建这个大数据管理系统的目标是希望SQL查询能够运行在不同的数据源上,并且使企业或组织能够利用现有的技术维护企业级数据安全,以及管理敏感的信息。Oracle表示这项技术其独特的架构和Smart Scan继承于Oracle Exadata,同时能够允许Oracle Big Data SQL查询所有形式的结构化和非结构化数据,并且最小化数据移动。

这也促进了Oracle数据库的安全功能,包括组织现有的安全策略,扩展到Hadoop和NoSQL数据。

Oracle的Dan McClary说,产品的开发已经有一段时间了,而且它超越了现有的技术。他同时表示Big Data SQL与HDFS DataNodes和YARN NodeManagers能够co-resident,另外,从新的外部表的查询被发送到这些服务能够保证直接路径读取和数据本地化。

Cloudera创始人、董事长兼首席战略官Mike Olson说:“在oracle的大数据设备上运行Cloudera的软件集比DIY集群部署更具成本效益并且速度更快。在Hadoop查询数据时,我们已经看到客户对SQL强烈的需求。”

原文请参考:http://www.aboutyun.com/thread-8540-1-1.html

时间: 2024-08-05 21:24:31

新技术架起 Oracle、Hadoop、NoSQL数据存储之间的桥梁的相关文章

hadoop的数据存储

行存储 如图2所示,基于Hadoop系统行存储结构的优点在于快速数据加载和动态负载的高适应能力,这是因为行存储保证了相同记录的所有域都在同一个集群节点,即同一个HDFS块.不过,行存储的缺点也是显而易见的,例如它不能支持快速查询处理,因为当查询仅仅针对多列表中的少数几列时,它不能跳过不必要的列读取:此外,由于混合着不同数据值的列,行存储不易获得一个极高的压缩比,即空间利用率不易大幅提高.尽管通过熵编码和利用列相关性能够获得一个较好的压缩比,但是复杂数据存储实现会导致解压开销增大. 图2 HDFS

Oracle Data Integrator 12c-模型(Model)和 数据存储(DataStore)

一.概念 Model模型: 描述关系型数据的模型. 是一组存放在特定的技术(如Oracle)的数据存储的集合.例如当技术为Oracle时,对应于数据库的Scheme DataStore: 数据存储 一个模型中包含的元数据,对应于模型所在scheme中的表或视图.可以通过反向工程(reverse-engineered) 从真实的环境导入, 也可以在ODI 中创建 二.支持的操作 测试表格 DROP TABLE DEPT; CREATE TABLE DEPT ( DEPTNO NUMBER (2)

深入理解开源数据库中间件 Vitess:核心特性以及如何进行数据存储的堆叠

概述 Vitess 是一个用于 MySql 扩展的数据库解决方案.它以能够像运行在专用硬件上那样有效地运行在云体系为目标进行架构.它集 MySql 数据库的很多重要特性和 NoSQL 数据库的可扩展性于一体.Vitess 已经成功侍服了 2011 年以来所有的 YouTube 数据库流量. Kubernetes 上的 Vitess Kubernetes 是 Google 开源的 Docker 容器集群管理系统,Vitess 是 Kubernetes 用户的逻辑存储引擎的一个可选项.Kuberne

数据存储值归档Archive

先比較一下各个数据存储之间的关系: 关于归档.是ios中的shu'j数据存储中的一种数据存储方式.以下了解一下归档中的一个实例: 以下的是父类person #import <Foundation/Foundation.h> @interface Person : NSObject <NSCoding> @property (nonatomic,copy) NSString *name; @property (nonatomic,assign) int age; @property

Hadoop数据存储—Hbase

大家都知道Hadoop是一个数据库,其实说的的就是Hbase.它和我们平常理解的关系型数据库有什么区别呢? 1.它是NoSQL的,它没有SQL的接口,有自己的一套API. 2.关系型数据库可以做汇总,可以进行常规的分析,但是Hbase不可以,它不能做汇总.那么Hbase操作不方便,不能做汇总,不能做分析,有什么作用呢?它的随机读写效率很高,可以存储海量数据,基于某个网点,某个城市,某个机器随机去查询速度快.或者去存储基于时间序列的数据,比如微信.微博.日志的数据,效率很高. 3.它的存储是列式的

Hive数据导入——数据存储在Hadoop分布式文件系统中,往Hive表里面导入数据只是简单的将数据移动到表所在的目录中!

转自:http://blog.csdn.net/lifuxiangcaohui/article/details/40588929 Hive是基于Hadoop分布式文件系统的,它的数据存储在Hadoop分布式文件系统中.Hive本身是没有专门的数据存储格式,也没有为数据建立索引,只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符,Hive就可以解析数据.所以往Hive表里面导入数据只是简单的将数据移动到表所在的目录中! Hive的几种常见的数据导入方式这里介绍四种:(1).从本地文件系统中

环境搭建 Hadoop+Hive(orcfile格式)+Presto实现大数据存储查询一

一.前言 以下简介摘自官方 Hadoop简介 Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关项目也很丰富,包括ZooKeeper,Pig,Chukwa,Hive,Hbase,Mahout,flume等.接下来我们使用的是Hive Hive简介 Hive 是一个基于 Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据.    它把海量数据存储于 hadoop 文件

Hadoop环境中管理大数据存储八大技巧

随着IT互联网信息技术的飞速发展和进步.目前大数据行业也越来越火爆,从而导致国内大数据人才也极度缺乏,下面介绍一下关于Hadoop环境中管理大数据存储技巧. 在现如今,随着IT互联网信息技术的飞速发展和进步.目前大数据行业也越来越火爆,从而导致国内大数据人才也极度缺乏,下面介绍一下关于Hadoop环境中管理大数据存储技巧. 1.分布式存储 传统化集中式存储存在已有一段时间.但大数据并非真的适合集中式存储架构.Hadoop设计用于将计算更接近数据节点,同时采用了HDFS文件系统的大规模横向扩展功能

hadoop笔记之Hive的数据存储(桶表)

Hive的数据存储(桶表) Hive的数据存储(桶表) 桶表 桶表是对数据进行哈希取值,然后放到不同文件中存储. 比如说,创建三个桶,而创建桶的原则可以按照左边表中学生的名字来创建对应的桶.这样子把左边的数据存到桶里面来的时候可以把学生名字经过哈希运算,把相同哈希运算的值的列存放在同一个桶当中.比如Tom.Jerry.Scott经运算以后它们的哈希值是一样的,那么这三个人的信息就会存放在相同的一个桶里面. 有了桶表以后,就能够降低系统的文件块,从而提高查询速度 ○ 如何创建桶表?(用名字进行创建