Spark -14:spark Hadoop 高可用模式下读写hdfs

第一种,通过配置文件

val sc = new SparkContext()

sc.hadoopConfiguration.set("fs.defaultFS", "hdfs://cluster1");
    sc.hadoopConfiguration.set("dfs.nameservices", "cluster1");
    sc.hadoopConfiguration.set("dfs.ha.namenodes.cluster1", "nn1,nn2");
    sc.hadoopConfiguration.set("dfs.namenode.rpc-address.cluster1.nn1", "namenode001:8020");
    sc.hadoopConfiguration.set("dfs.namenode.rpc-address.cluster1.nn2", "namenode002:8020");
    sc.hadoopConfiguration.set("dfs.client.failover.proxy.provider.cluster1", "org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider");

第二种,通过Java代码

val conf = new SparkConf().setAppName("Spark Word Count") 
    val sc = new SparkContext()
    sc.hadoopConfiguration.addResource("cluster1/core-site.xml")
    sc.hadoopConfiguration.addResource("cluster1/hdfs-site.xml")

时间: 2024-10-11 06:27:44

Spark -14:spark Hadoop 高可用模式下读写hdfs的相关文章

基于 ZooKeeper 搭建 Hadoop 高可用集群

一.高可用简介 二.集群规划 三.前置条件 四.集群配置 五.启动集群 六.查看集群 七.集群的二次启动 一.高可用简介 Hadoop 高可用 (High Availability) 分为 HDFS 高可用和 YARN 高可用,两者的实现基本类似,但 HDFS NameNode 对数据存储及其一致性的要求比 YARN ResourceManger 高得多,所以它的实现也更加复杂,故下面先进行讲解: 1.1 高可用整体架构 HDFS 高可用架构如下: 图片引用自:https://www.edure

CLOUD 04:zookeeper,kafka,hadoop高可用

zookeeper 安装 1 禁用防火墙和 selinux2 设置 /etc/hosts ip 主机名对应关系3 安装 openjdk zookeeper 角色,选举leader 集群主节点follower 参与选举的附属节点observer 不参与选举的节点,同步 leader 的命名空间 1 拷贝配置文件/usr/local/zookeeper/conf/zoo_sample.cfg 到/usr/local/zookeeper/conf/zoo.cfg 2 修改配置文件vim /usr/lo

zookeeper简易配置及hadoop高可用安装

zookeeper介绍    是一个分布式服务的协调服务,集群半数以上可用(一般配置为奇数台),            快速选举机制:当集群中leader挂掉,所有小弟会投票选举出新的leader.    快速同步数据:zk将会存储小量用于服务做协调的数据.        标准文件系统用于存储大量数据:而zk存储小量协调数据    标准文件系统文件就是文件,目录就是目录:zk中文件既是目录. 1.zookeeper的安装与启动        解压并配置环境变量    配置./conf/zoo.c

常用组件、kafka集群、hadoop高可用

1.Zookeeper安装搭建Zookeeper集群并查看各服务器的角色停止Leader并查看各服务器的角色 1.1 安装Zookeeper1)编辑/etc/hosts ,所有集群主机可以相互 ping 通(在nn01上面配置,同步到node1,node2,node3)nn01 hadoop]# vim /etc/hosts192.168.1.21 nn01192.168.1.22 node1192.168.1.23 node2192.168.1.24 node3 2)安装 java-1.8.0

专职DBA-基于MHA高可用搭建MySQL读写分离架构-Atlas

专职DBA-基于MHA高可用搭建MySQL读写分离架构-Atlas 1.Atlas介绍 Atlas是由Qihoo360,Web平台部基础架构团队开发维护的一个基于MySQL协议的数据中间层项目. 它是在mysql-proxy-0.8.2版本的基础上,对其进行了优化,增加了一些新的功能特性. 360内部使用Atlas运行的mysql业务,每天承载的读写请求数达几十亿条. 下载地址:https://github.com/Qihoo360/Atlas/releases 注意: 1.Atlas只能安装运

Apache Spark 1.6 Hadoop 2.6 Mac下单机安装配置

转载:http://www.cnblogs.com/ysisl/p/5979268.html 一. 下载资料 1. JDK 1.6 + 2. Scala 2.10.4 3. Hadoop 2.6.4 4. Spark 1.6 二.预先安装 1. 安装JDK 2. 安装Scala 2.10.4 解压安装包即可 3. 配置sshd ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_

redis 系列25 哨兵Sentinel (高可用演示 下)

一. Sentinel 高可用环境准备 1.1 Sentinel 集群环境 环境 说明 操作系统版本 CentOS  7.4.1708  IP地址 172.168.18.200 网关Gateway 172.168.18.1 DNS 172.168.16.11 三个sentinel服务端口 26379,26380,26381 Sentinel密码 无 不设置 是否RDB持久化 不支持 是否 AOF持久化 不支持 1.2 Redis主库库环境,主从库搭建在(redis 系列22 复制Replicat

大数据高可用集群环境安装与配置(06)——安装Hadoop高可用集群

下载Hadoop安装包 登录 https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/ 镜像站,找到我们要安装的版本,点击进去复制下载链接 安装Hadoop时要注意版本与后续安装的HBase.Spark等相关组件的兼容,不要安装了不匹配的版本,而导致某些组件需要重装 输入命令进行安装操作 cd /usr/local/src/ wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/

Hadoop高可用原理及环境搭建

一.说明 本次配置基于上一篇博客<Hadoop完全分布式搭建全过程>做补充,基于完全分布式做高可用搭建...... 二.原理 Hadoop1.X中只有一个NameNode,所有元数据信息都被这个NameNode管理,存在两个问题:单点故障和内存压力大,所以在Hadoop2.X中对两个存在的问题分别有对应的解决方案: 对于单点故障,Hadoop2.X中实现主备模式,有两个NameNode节点,去除之前Hadoop1.X中的SecondaryNameNode节点,用actived和standby状