大数据常用软件安装指南

一、基础软件安装

  1. Linux 环境下 JDK 安装
  2. Linux 环境下 Python 安装
  3. 虚拟机静态 IP 及多 IP 配置

二、Hadoop

  1. Hadoop 单机环境搭建
  2. Hadoop 集群环境搭建
  3. 基于 Zookeeper 搭建 Hadoop 高可用集群

三、Spark

  1. Spark 开发环境搭建
  2. 基于 Zookeeper 搭建 Spark 高可用集群

四、Storm

  1. Storm 单机环境搭建
  2. Storm 集群环境搭建

五、HBase

  1. HBase 单机环境搭建
  2. HBase 集群环境搭建

六、Flume

  1. Linux 环境下 Flume 的安装部署

七、Azkaban

  1. Azkaban3.x 编译及部署

八、Hive

  1. Linux 环境下 Hive 的安装部署

九、Zookeeper

  1. Zookeeper 单机环境和集群环境搭建

十、Kafka

  1. 基于 Zookeeper 搭建 Kafka 高可用集群

版本说明

由于 Apache Hadoop 原有安装包之间兼容性比较差,所以如无特殊需求,本仓库一律选择 CDH (Cloudera‘s Distribution, including Apache Hadoop) 版本的安装包。它基于稳定版本的 Apache Hadoop 构建,并做了兼容性测试,是目前生产环境中使用最为广泛的版本。

最新的 CDH 5 的下载地址为:http://archive.cloudera.com/cdh5/cdh/5/ 。这个页面很大且加载速度比较慢,需要耐心等待页面加载完成。上半部分是文档链接,后半部分才是安装包。同一个 CDH 版本的不同框架间都做了集成测试,可以保证没有任何 JAR 包冲突。安装包包名通常如下所示,这里 CDH 版本都是 5.15.2 ,前面是各个软件自己的版本 ,未避免出现不必要的 JAR 包冲突,请务必保持 CDH 的版本一致

hadoop-2.6.0-cdh5.15.2.tar.gz
hbase-1.2.0-cdh5.15.2
hive-1.1.0-cdh5.15.2.tar.gz

更多大数据系列文章可以参见 GitHub 开源项目大数据入门指南

原文地址:https://www.cnblogs.com/heibaiying/p/11498020.html

时间: 2025-01-02 05:49:20

大数据常用软件安装指南的相关文章

区块链这些技术与h5房卡斗牛平台出售,大数据基础软件干货不容错过

在IT产业发展中,包括CPU.操作系统h5房卡斗牛平台出售 官网:h5.super-mans.com 企娥:2012035031 vx和tel:17061863513 h5房卡斗牛平台出售在内的基础软硬件地位独特,不但让美国赢得了产业发展的先机,成就了产业巨头,而且因为技术.标准和生态形成的壁垒,主宰了整个产业的发展.错失这几十年的发展机遇,对于企业和国家都是痛心的. 当大数据迎面而来,并有望成就一个巨大的应用和产业机会时,企业和国家都虎视眈眈,不想错再失这一难得的机遇.与传统的IT产业一样,大

大数据技术之_18_大数据离线平台_01_项目开发流程+大数据常用应用/分析平台/业务处理方式+数据分析平台的数据来源+数据处理的流程+项目集群的规模+需求分析+技术架构/选型

一.项目开发流程1.1.项目调研1.2.项目需求分析1.3.方案设计1.3.1.概要设计1.3.2.详细设计1.4.编码实现1.4.1.单元测试1.4.2.集成测试1.4.3.压力测试1.4.4.用户测试二.大数据常用应用2.1.数据出售2.2.数据分析2.2.1.百度统计2.2.2.友盟2.2.3.其他统计分析组织2.3.搜索引擎2.3.1.solr2.3.2.luence2.3.3.luence & solr 对比2.4.推荐系统(高数)2.4.1.技术2.4.2.算法2.5.精准营销2.5

oschina大数据开源软件

Hadoop 图形化用户界面 Hue 大数据可视化工具 Nanocubes 企业大数据平台 RedHadoop 大数据查询引擎 PrestoDB Hadoop集群监控工具 HTools 安全大数据分析框架 OpenSOC 分布式数据仓库系统 Apache Tajo 数据管道服务 Suro 开源大数据工具 Luigi C++ 的 MapReduce? 框架 MR4C Hadoop 数据管理平台 Apache Falcon 分布式系统基础架构 Hadoop 分布式数据库 HBase 大规模数据集软件

sql 查询大数据 常用 50列优化

大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到. 下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题.下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论. 1.Bloom filter 适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集 基本原理及要点: 对于原

[转]算法的简单归类。大数据常用算法

无论是机器学习.模式识别.数据挖掘.统计学习.计算机视觉.语音识别.自然语言处理都涉及到算法. 1.树:决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法.由于这种决策分支画成图形很像一棵树的枝干,故称决策树.在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系.Entropy = 系统的凌乱程度,使用算法ID3, C4.5和

Scala 大数据 常用算法收集

一:IP转数字,用于比大小,用在求IP段范围中 def ip2Long(ip: String): Long = { val fragments = ip.split("[.]") var ipNum = 0L for (i <- 0 until fragments.length){ ipNum = fragments(i).toLong | ipNum << 8L } ipNum } 二:二分法 查找某一IP段所属范围 def binarySearch(lines:

04.大数据必备软件WinSCP、MTputty

WinSCP MTputty安装 没中文没空格 原文地址:https://www.cnblogs.com/star521/p/10241064.html

《SPARK/TACHYON:基于内存的分布式存储系统》-史鸣飞(英特尔亚太研发有限公司大数据软件部工程师)

史鸣飞:大家好,我是叫史鸣飞,来自英特尔公司,接下来我向大家介绍一下Tachyon.我事先想了解一下大家有没有听说过Tachyon,或者是对Tachyon有没有一些了解?对Spark呢? 首先做一个介绍,我来自英特尔的大数据团队,我们团队主要是致力于各种大数据的软件开发以及这些软件在工业界的推广和应用,我所在的团队主要负责Spark及其软件栈的开发和推广.我们是国内最早参加Spark开发和推广的团队,我们在2012年就加入了Spark社区.在Spark和相关的项目中间投入了大量的人力,长期以来我

交易服务助力大数据产业生态系统完善 ——北京软件和信息服务交易所总裁胡才勇谈大数据产业生态系统建设

据有关预测,未来三年内,我国大数据市场将以每年超过60%的速度增长,预计到2017年市场规模将达到37.9亿美元.面对爆炸式增长的市场,面对不远处诱人的"大蛋糕",我国大数据产业生态系统是否做好了准备?目前,我们不得不担忧地看到:在整个大数据产业链条上,标准缺失!制度缺失!相关交易服务配套的缺失! 一个"赤裸裸的问题" 今年4月,国内大数据标准工作组刚刚组建,北京软件和信息服务交易所(以下简称"软交所")总裁胡才勇作为工作组的重要成员之一参与了大