大数据环境下的数据仓库建设

作者:萝卜(微信:Robbie_Qi)

这几天研究了一家美国的大数据公司1010data,它在产品白皮书中提出了新一代数据仓库的概念(NEXT-GENERATION DATA DISCOVERY),相对于第一代数据仓库,具有如下一些特征:

用户可以针对任何问题进行分析和查询,也就是说,分析系统要提供更加友好的操作体验,更加明细的数据粒度;

分析效率和水平扩展,在大数据量的情况下,也要保证分析过程的高效率;

数据混搭和数据分享,强调企业内部数据和外部数据的综合分析,以及数据的货币化;

在它的报告中,同时也非常强调自助分析的重要性,要让数据分析摆脱IT支撑部门的束缚,这其实和第一点的内容有些类似,只是更加强调了系统的易用性。为了进一步阐述它的观点,白皮书将第一代数据仓库和新一代数据仓库进行了对比,如下:

总体上来讲,我比较赞同它前面提出的新一代数据仓库的特点,即易用、高效、扩展、数据分享等,但对于上图中的对比,我很难苟同,尤其是在速度、扩展两个方面。传统数据仓库,数据规模也可能很大,比如,电信运营商的话单数据量就可以很大,在数据仓库建设中,必然要考虑处理速度以及扩展的问题,只是不会使用到目前阶段很火的hadoop等,但可以使用分布式MySQL、并行计算等方面的技术,从而提高处理速度,解决设备扩展的问题。

我个人认为,在大数据时代建设数据仓库,着重要解决的就是打通企业内数据和企业外数据,实现“全数据”的挖掘和应用,这是大数据的精髓所在。之所以要实现全数据的分析,是基于以下考虑:

1)    可以更加全面的定位问题,提出解决办法。传统数据仓库,由于只专注于打通企业内部的业务系统孤岛,获取到的是企业内部数据,是影响问题的企业内部因素,而引起问题的原因往往是复杂的,除了企业自身因素外,外部的宏观因素、社会因素也是必不可少的分析内容,而传统数据仓库对此是无能为力的。

2)    针对未来的预测可以更加精确。大数据时代更加强调数据预测,利用数据挖掘算法实现辅助决策,而分析算法的精确性,取决于影响预测结果的变量多样性和准确性。例如,我们耳熟能详的视频推荐,根据用户的收视历史推荐最感兴趣的内容,推荐算法的命中率很大程度上取决于你所能找到的影响用户收视兴趣的变量,包括收视历史、用户分类、流行视频等等,假设你收集企业内部的用户收视历史,缺少了外部群体的收视习惯,那么你的推荐算法就是有缺陷的,尤其是当用户规模较小的时候,如第一时间获取到大家正在追看《武媚娘》的信号。

2015年4月13日星期一

时间: 2024-10-10 08:25:45

大数据环境下的数据仓库建设的相关文章

大数据环境下的数据仓库建设(转)

这几天研究了一家美国的大数据公司1010data,它在产品白皮书中提出了新一代数据仓库的概念(NEXT-GENERATION DATA DISCOVERY),相对于第一代数据仓库,具有如下一些特征: l  用户可以针对任何问题进行分析和查询,也就是说,分析系统要提供更加友好的操作体验,更加明细的数据粒度: l  分析效率和水平扩展,在大数据量的情况下,也要保证分析过程的高效率: l  数据混搭和数据分享,强调企业内部数据和外部数据的综合分析,以及数据的货币化: 在它的报告中,同时也非常强调自助分

XFS:大数据环境下Linux文件系统的未来?

XFS:大数据环境下Linux文件系统的未来? XFS开发者Dave Chinner近日声称,他认为更多的用户应当考虑XFS.XFS经常被认为是适合拥有海量数据的用户的文件系统,在空间分配方面的可扩展性要比ext4快“几个数量级”. “元数据验证”意味着,让元数据自我描述,保护文件系统,防范被存储层指错方向的写入.那么,为什么我们仍需要ext4? AD:WOT2015 互联网运维与开发者大会 热销抢票 [51CTO 2月7日外电头条]Linux有好多种件系统,但往往最受关注的是其中两种:ext4

大数据环境下,我们被卖了一次又一次

大数据,人工智能是当下互联网最热门的话题. 抛开大数据的人工智能都是耍流氓,人工智能需要大数据作为基础支持. 大数据是1980年,著名未来学家阿尔文·托夫勒便在<第三次浪潮>一书中,将大数据热情地赞颂为"第三次浪潮的华彩乐章".大约从2009年开始,"大数据"成为互联网信息技术行业的流行词汇. 什么是大数据? 大数据,或称巨量数据.海量数据;是由数量巨大.结构复杂.类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的集成共享,交叉复用

大数据环境下的隐形隐私问题探讨

在大数据环境下,信息敏感属性由原来具体的.明确的属性集,成为散落在海量数据中分散的.模糊的信息碎片. 隐形隐私数据的安全保护核心就是基于数据防泄漏技术能够应对更广泛的隐私信息泄露渠道 ,以及采取与隐私隐私数据保护相对应的隐私保护技术手段和管理手段. 下载高清完整PPT材料以及获取更多精彩请扫描长图右下角二维码,加入IT狂想者,提升自我价值,共赢财富与未来! 原文地址:https://blog.51cto.com/cnsecurity/2386952

大数据环境下的数据库架构

随着数据的快速增长,分表,分库,memcache,redis,mongodb,hadoop,bigtable等,各种解决方案呼之欲出.经过测试,在MySQL中,无论如何加索引,数据超过百w时,查询起来耗时很明显. 因此mysql分表分库+memcache+redis也不失是一个完美解决方案. 由于redis不支持复杂查询,redis的读取性能还是赶不上mem这些劣势,因此才需要一些搭挡. 流程 从CRUD看底层架构. 1. 插入数据 一般情况下,对用户是没有必要分表的,用户的文章或者微博才分表,

大数据环境下的文件系统感想

而对于一些场景,比如虚拟机活动镜像的存储,或者说虚拟机硬盘文件的存储,还有大数据处理等场景,对象存储就显得捉襟见肘了.而文件系统在这些领域有突出的表现,比如Nutanix的NDFS(Nutanix Distributed Filesystem)和VMware的VMFS(VMware Filesystem)在虚拟机镜像存储方面表现很出色,Google文件系统GFS及其开源实现HDFS被广泛用于支撑基于MapReduce模型的大数据处理支持得很好,而且能够很好地支持百GB级.TB级甚至更大文件的存储

现阶段大数据环境中会存在什么样的不安全因素?

之前分享过的大数据时代的到来,为我们提供了哪些便利之处?今天墨者安全为大家分享下,在现阶段的大数据环境中,会存在什么样的不安全因素?如今各行各业的领域针对安全都有不同的需求,从采集.整合.提炼.挖掘到发布,这一流程已经形成一套完整的产业链条.随着数据的进一步发展,对于产业链中的安全防护变得更加困难,随时都会有数据泄露的风险,所以在大数据的应用过程中,如何确保用户及自身信息资源不被泄露,这将在很长一段时间都是企业重点考虑的问题.1.大数据的基础设施不安全因素包括存储设备.运算设备.一体机和其他基础

企业大数据平台下数仓建设思路

免费开通大数据服务:https://www.aliyun.com/product/odps 介然(李金波),阿里云高级技术专家,现任阿里云大数据数仓解决方案总架构师.8年以上互联网数据仓库经历,对系统架构.数据架构拥有丰富的实战经验,曾经数据魔方.淘宝指数的数据架构设计专家. 与阿里云大数据数仓结缘 介然之前在一家软件公司给企业客户做软件开发和数仓开发实施,数仓开发和实施都是基于传统的基础架构.2008年加入阿里进入淘宝数据平台部后,他开始接触分布式计算平台Hadoop. 初始时在Hadoop平

windows下用Eclipse连接大数据环境得hbase

1.解压hbase安装包 2.将大数据环境得hadoop安装包拷贝到windows(这里以d:/hadoop为例) 3.打开C:\Windows\System32\drivers\etc目录下的hosts并添加如下代码 127.0.0.1 localhost192.168.48.134 master192.168.48.133 slaver 注:这里你配置了几台服务器就写几台,这里我只配置192.168.48.134 master和192.168.48.133 slaver两台 4.使用Ecli