《开源大数据分析引擎Impala实战》前言

当当网图书信息:

http://search.dangdang.com/?key=impala

写作背景

作为曾经的传统关系型数据库从业者,我们不仅需要了解数据库本身,还需要了解运行数据库的主机,存储数据库数据的仓库,读取数据库数据的中间件以及应用本身的特点。随着硬件的发展以及数据处理的细化,数据库技术从传统的基于磁盘的关系型数据库,向内存数据库、MPP数据库不同的方向演进,数据库产品也从高大全向单一RDBMS吃遍天、短小精悍的方向发展。在架构时,我们必须根据应用的特点选择合适的数据库产品。

自2009年开始,笔者开始尝试使用基于Hadoop的技术来解决传统数据库无法线性扩展的问题。Hadoop不能称之为“数据库”,也不能简单地称之为“应用”,而是介于数据库和应用之间的一种既能用于存储和处理数据,又能处理应用业务逻辑的一个混合体,我们通常称之为“数据平台”。Hadoop虽在本质上解决了磁盘IO的扩展问题,但同时由于其基于磁盘(自Hadoop 2.3起支持缓存特性),因此对于某些实时性要求更高的任务无能为力,Impala及其他的基于内存的运算技术应运而生。

Impala的存储基于HDFS,运算基于表的统计信息生成执行计划,具备资源管理功能,是最像传统数据库的大数据技术。笔者着手写作本书时Impala的最新版本为1.3.1,而目前已演进至 2.1版本,在SQL语法、安装、扩展性及性能方面进一步增强。

主要内容

工欲善其事,必先利其器,第1章手把手地为大家介绍如何离线搭建一个Impala环境。有了一个环境之后,我们可以暂时不考虑细节,先尝尝鲜使用一下它。第2章介绍如何在Impala上进行简单的数据加载、建表、查询等操作。作为Impala的管理者,仅仅能够简单使用它是远远不够的。第3章系统地介绍Impala的架构体系及各组件的作用。第4章是为Impala的使用者量身定做的,花费比较大的篇幅介绍了Impala SQL、函数、UDF等。任何一款数据库都会提供一个命令行工具,方便在没有图形界面的情况下,或者在Shell中进行调用,Impala也不例外,第5章介绍Impala的命令行工具Impala-shell。那如何有效地避免硬件资源的过载使用呢?当然是通过资源管理,第6章将详细介绍Impala的资源管理机制,另外也可以将Impala使用YARN来进行管理。第7章详细介绍了Impala底层支持的文件类型,基本囊括了Hadoop主流的文件类型。第8章介绍了Impala的分区机制。第9章介绍了Impala性能优化的指导原则,以及优化过程中使用到的各项技术。第10章介绍了在企业应用中使用Impala时的设计原则及应用案例。

读者对象

l     内存计算技术初学者

l     数据库管理员及数据库开发人员

l     Hadoop及内存计算的运维工程师

l     开源软件爱好者

l     其他对大数据技术感兴趣的人员

致谢

在此感谢Cloudera的苗凯翔博士、Deborah Wiltshire、Yale Wang对本书的认可。感谢我的好兄弟闫猛、付乐庆对我一直以来的鼓励。感谢我曾经服务过的客户们对我的信任。感谢我的家人和朋友们,你们是我不断努力的源动力。

作者简介

贾传青,数据架构师,Oracle OCM,DB2迁移之星,TechTarget特约作家,从数据库向大数据转型的先行者。曾服务于中国联通、中国电信、建设银行、PICC等,目前供职于一家大数据解决方案提供商,致力于使用大数据技术解决传统数据库无法解决的问题。

作者

2015年1月

时间: 2024-10-09 21:41:50

《开源大数据分析引擎Impala实战》前言的相关文章

《App后台开发运维和架构实践》推荐序

软件开发工具的成长速度远远超过开发人员的成长速度,这是现实. 每个月,甚至每天,我们都可以见到新的类库.框架.工具.语言.它们或者极大地降低了开发的成本,或者极大地提升了开发的效率. 随之而来的问题就是,如何让开发人员妥善地运用好这些工具? 曾经有好几个做开发的同事跟我说:"写软件谁不会?从网上找些开源的类和项目来改改就是了".目前也确实充斥着这种"改改就是"的工作思维.介绍某个类库和项目如何安装和调用的文章俯拾皆是. 但是每种工具究竟有什么优缺点?适合用来解决什么

《App后台开发运维和架构实践》前言

笔者在2012年从开发电子商务网站转向了开发App后台,当时在一家做社交App的创业公司里工作,笔者和搭档都没有任何从事移动互联网开发的经验,不清楚App后台怎么架构,只能摸着石头过河,那时网络上只有一些零散的资料,当遇到问题时只能不断地摸索和思考,来找到解决问题的方法. 在从事开发App后台接近4年的时间中,笔者参与了两款社交App的开发,现在就职于bmob,从事云后台服务的研发工作,慢慢地对App后台的架构有了一些体会. 从2013年年底开始,笔者把工作笔记发表在CSDN博客专栏"App后端

《App 后台开发运维和架构实践》目录

ps:由于书的目录太长了,各大网店(京东,当当,亚马逊)都显示不完整,所以这里列出目录的完整版. 第1章 App后台入门 16 1.1 App后台的功能 16 1.2 App后台架构 17 1.3 App和App后台的通信 19 1.4 App后台和Web后端的区别 22 1.5 选择服务器 23 1.6 选择编程语言 24 1.7 快速入门新技术 25 1.7.1 思维模式 25 1.7.2 4种快速入门新技术的方法 25 1.8 App是怎样炼成的 26 1.8.1 项目启动阶段 26 1.

App 后台架构设计方案 设计思想与最佳实践

转载请注明出处:http://blog.csdn.net/smartbetter/article/details/53933096 做App做的久了,就想研究一下与之相关的App后台,发现也是蛮有趣的.App后台的两个重要作用就是 远程存储数据 和 消息中转.这里面的知识体系也是相当复杂,做好一个App后台也是需要长期锤炼的.本篇文章从 App 后台架构 的角度介绍.好了,下面进入正题: 说起架构,我们先看一下何为架构,百度百科是这样说的:架构,又名软件架构,是有关软件整体结构与组件的抽象描述,

基于 Docker 的微服务架构实践

本文来自作者 未闻 在 GitChat 分享的{基于 Docker 的微服务架构实践} 前言 基于 Docker 的容器技术是在2015年的时候开始接触的,两年多的时间,作为一名 Docker 的 DevOps,也见证了 Docker 的技术体系的快速发展.本文主要是结合在公司搭建的微服务架构的实践过程,做一个简单的总结.希望给在创业初期探索如何布局服务架构体系的 DevOps,或者想初步了解企业级架构的同学们一些参考. Microservice 和 Docker 对于创业公司的技术布局,很多声

Django开发运维后台(二):建立模型与更新数据

上一篇文章我已经新建了一个SaAdmin的APP,现在开始在这APP下面来code 1.修改setting.py的数据库连接: DATABASES = {     'default': {         'ENGINE':'django.db.backends.mysql',         'NAME': 'QjshAdmin',         'USER': 'root',         'PASSWORD': 'lihuipeng',         'HOST': 'localho

空格App亿元A轮融资背后:云上多场景技术架构实践与经验

直播视频: (点击图片观看) 幻灯片下载地址:https://oss.aliyuncs.com/yqfiles/382bc642fc0b621a9368138a74d8fd36.pdf 3月16日云栖社区在线实时分享顺利结束,本次由空格APP技术合伙人刘博分享了空格利用阿里云服务在搜索.推荐和数据挖掘业务场景下的探索实践.本次视频直播的整理文章.视频整理完毕,如下内容. 阿里云在空格 图一 空格服务端整体架构 在空格初始创业阶段,人员十分缺乏,但依靠着阿里云,空格两周便实现APP上线.空格服务端

现货!《PHP7实践指南:o2o网站与App后台开发》京东天猫有售

终于发售了,啥也不想说了,喜欢的或需要的就点击 链接 进去购买吧. 另外此书将作为 2017 PHP全球开发者大会 现场活动用书 天猫购书包邮 PHP7实践指南:O2O网站与App后台开发 数据库设计 PHP开发工程 适合作为企业内部培训.培训机构和大专院校的教学参考书 京东购书PHP7实践指南:O2O网站与App后台开发 陈小龙 PHP7语言编程教程书籍 php7 PHP全球开发者大会 2017 PHP 全球开发者大会 -百格活动 作者简介陈小龙,奇虎360软件工程师,是国内较早研究微信开发和

APP后台架构20191205

1.架构,架构与业务紧密相关,是有业务驱动的. 2.APP后台演进原则. App后台的架构是由业务规模驱动而演进的,App后台是为业务服务的,App后台的价值在于能为业务提供其所需要的功能,不应过度设计. 从项目的角度,当App访问量不大时,应该快速搭建App后台,让App尽快上线给用户提供服务,验证商业模式的正确性,同时快速迭代产品. 当App访问量不断上升,这时要在保证快速迭代的前提下,同时兼顾高性能和高可用. 当App访问量达到一定阶段后,增长曲线就会放缓,但业务变得更加复杂,对高性能和高

构建高并发高可用的电商平台架构实践

从各个角度总结了电商平台中的架构实践,由于时间仓促,定了个初稿,待补充完善,欢迎大家一起交流. 转载请声明出处:http://blog.csdn.net/yangbutao/article/details/12242441 作者:杨步涛 关注分布式架构.大数据.搜索.开源技术 QQ:306591368 技术Blog:http://blog.csdn.net/yangbutao 一. 设计理念 1.      空间换时间 1)      多级缓存,静态化 客户端页面缓存(http header中包