混合 Data Warehouse 和 Big Data 倉庫的新架構

(讀書筆記)
許多公司,儘管想導入 Big Data,仍必須繼續用 Data Warehouse 來管理結構化的營運數據、系統記錄。而 Big Data 的出現,為 Data Warehouse 提供了一個互補的機會,而不是取代後者。

高度結構化的營運資料 (data,數據),仍然可保留在 Data Warehouse 中;而分散式 (distributed) 的資料,以及會即時改變的資料,則可交由基於 Hadoop 的架構來控制。


圖 1 傳統的 Data Warehouse 和 Data Mart 架構


圖 2 混合 Data Warehouse 和 Big Data 倉庫的新架構

一間公司的客戶、潛在使用者,在網路上和實體上的互動,這些大量產生的數據,傳統的 Data Warehouse 僅能跟蹤交易及營運數據,但卻不能跟蹤網路流量及相關資訊。為了儘可能多保留這些數據,與其建立一個 Data Warehouse 來儲存所有數據,不如用 Hadoop 分散式計算的方式,將數據存放在公司的伺服器上。這樣,公司就能將所有來自「網頁互動」的數據保存下來了。這些數據儲存在運行著 Hadoop 和 MapReduce 的伺服器叢集 (cluster) 中,配合使用 Flume 和 Sqoop 之類的工具,公司的資訊團隊,就能夠將數據從 Hadoop 裡遷移出來,匯入關聯式模型及資料庫中,讓大家用熟悉的傳統 SQL 工具來查詢。

這樣公司就能在發現某些客戶群,希望獲得某些新型態服務時,快速地轉變服務和產品。公司 (線上旅遊網站) 還能夠預測一些趨勢,像是如何適時地調整機票的價格。這些數據中,有一部分仍保留在 Hadoop 環境中,並能保持幾乎「即時」的更新;另有一些數據,經過處理後,已被轉移到了 Data Warehouse 中,這樣他們就可用於和歷史數據進行比對。既有的 Data Warehouse 繼續提供公司業務需要的內容,Hadoop 環境則可以跟蹤每分鐘都發生了什麼事。這種將系統記錄與 Data Warehouse 整合的動態大數據系統,能為公司提供巨大的商機,讓公司能在網路世界中,把即時產生的大量數據、分析結果,應用到公司的業務上。

----------------------------------------------
以上節錄自 Big Data For Dummies 簡體中譯本
Ch11, 設備和大數據倉庫

該書 260頁,圖多,內容偏重講原理、技術簡介、和企業既有應用的整合,幾乎沒程式碼 (適合老闆和主管看)

写给大家看的大数据(簡體中譯本):
http://www.m.sanmin.com.tw/Product/Index/004706578
ISBN13:9787115356130
ISBN: 9781118504222

时间: 2024-07-29 03:25:22

混合 Data Warehouse 和 Big Data 倉庫的新架構的相关文章

Building the Unstructured Data Warehouse: Architecture, Analysis, and Design

Building the Unstructured Data Warehouse: Architecture, Analysis, and Design earn essential techniques from data warehouse legend Bill Inmon on how to build the reporting environment your business needs now! Answers for many valuable business questio

DataBase vs Data Warehouse

Database https://en.wikipedia.org/wiki/Database A database is an organized collection of data.[1] A relational database, more restrictively, is a collection of schemas, tables, queries, reports, views, and other elements. Database designers typically

使用PowerShell在Azure China创建Data Warehouse

微软的Azure Data Warehouse是基于MPP架构的分布式系统: Control Node负责管理系统和接受用户的请求,Compute Node负责计算. 目前在国内Azure Data Warehouse已经落地了.可以使用新的Portal页面进行管理,也可以使用PowerShell进行管理. 本文将介绍用PowerShell的管理方式.包括创建.Scale out.Suspend和Resume. 1 环境准备 登陆Azure China,并创建Resource Group $my

System Center 2012 R2 POC部署之Services Manager Data Warehouse部署

System Center 2012 R2 POC部署之Services Manager Data Warehouse部署 1. 载入安装光盘,运行安装程序,选择Service Manager数据仓库管理服务器 2. 设置产品注册信息 3. 设置安装路径 4. 检查软硬件环境 5. 配置数据仓库数据库,输入数据库服务器,选择实例 6. 配置附加数据仓库数据市场,输入数据库服务器 7. 配置数据仓库管理组,输入组名称,选择管理组管理员 8. 配置数据仓库报表服务器,输入报表服务器名称 9. 配置服

Data Warehouse

Knowledge Discovery Process OLTP & OLAP 联机事务处理(OLTP, online transactional processing)系统:涵盖组织机构大部分的日常操作,purchasing, inventory, banking,manufacturing, payroll, registration, accounting 联机分析处理(OLAP, online analytical processing)系统:以不同的格式组织和提供数据,以满足不同用户的

对数据集“dsArea”执行查询失败。 (rsErrorExecutingCommand),Query execution failed for dataset 'dsArea'. (rsErrorExecutingCommand),Manually process the TFS data warehouse and analysis services cube

错误提示: 处理报表时出错. (rsProcessingAborted)对数据集“dsArea”执行查询失败. (rsErrorExecutingCommand)Team System 多维数据集或者不存在,或者未经处理. 解决方法: Manually process the TFS data warehouse and analysis services cube When you need the freshest data in your reports, when errors have

Data Warehouse Definition

Data Warehouse Definition Different people have different definitions for a data warehouse. The most popular definition came from Bill Inmon, who provided the following: A data warehouse is a subject-oriented(面向主题), integrated(集成的), time-variant(随时间变

BI 底座——数据仓库技术(Data Warehouse)

在开始喷这个主题之前,让我们先看看数据仓库的官方定义: 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented).集成的(Integrate).相对稳定的(Non-Volatile).反映历史变化(Time Variant)的数据集合,用于支持管理决策.以上是数据仓库的官方定义. "操作型数据库"如银行里记账系统数据库,每一次业务操作(比如你存了5元钱),都会立刻记录到这个数据库中,长此以往,满肚子积累的都是零碎的数据,这种干脏活累活还不得闲的数据库

100 open source Big Data architecture papers for data professionals

zhuan :https://www.linkedin.com/pulse/100-open-source-big-data-architecture-papers-anil-madan Big Data technology has been extremely disruptive with open source playing a dominant role in shaping its evolution. While on one hand it has been disruptiv