hadoop的安全系列

hadoop的安全系列

标签(空格分隔): hadoop安全系列


  • 一:hadoop安全背景
  • 二: Kerberos基本概念

#一: hadoop安全背景
##1.1、共享集群

1. 按照业务或应用的规划份资源队列,并分配给特定用户
2. hdfs上存放各种数据,包括公共的,机密的

##1.2、重要概念

1.安全认证:
确保某个用户是自己声称的那个用户
2.安全授权:
确保某个用户只能做它允许的那些操作
3. user :
hadoop 用户,可以提交作业,查看自己作业状态,查看HDFS上的文件
4. Service:
Hadoop 中的服务组件,包括:
namenode ,resourcemanager ,datanode, nodemanager 

##1.3、hadoop1.0 的安全问题

1.User to Service
 Namenode或者jobtracker缺乏安全认证机制
 DataNode缺乏安全授权机制
 JobTracker缺乏安全授权机制

2.Service to service安全认证
     Datanode与TaskTracker缺乏安全授权机制,这使得用户可以随意启动假的datanode和tasktracker

3.磁盘或者通信连接没有经过加密

4. Apache Hadoop 1.0.0版本和Cloudera CDH3之后的版本添加了安全机制
 Hadoop提供了两种安全机制:Simple和Kerberos

 4.1:Simple
   采用SAAS协议,默认机制
   配置简单、使用简单、适合单一团队使用

 4.2: kerberos
     Kerberos可以将认证的密钥在集群部署时事先放到可靠的节点上。只有被认证过节点才能正常使用,配置稍复杂、使用稍麻烦、安全性高

1.4、 Kerberos解决的Hadoop认证问题

1. kerberos实现的是机器级别的安全认证,也就是服务到服务的认证

2. 解决服务器到服务器的认证
   2.1、防止了用户伪装成Datanode,Tasktracker,去接受JobTracker,Namenode的任务指派

3. 解决client到服务器的认证
   Kerberos对可信任的客户端提供认证,确保他们可以执行作业的相关操作

4. 对用户级别上的认证并没有实现
   无法控制用户提交作业的操作

二: Kerberos基本概念

2.1. kerberos 包含的实体

Principal(安全个体):被认证的个体,有一个名字和口令

KDC(key distribution center ) : 是一个网络服务,提供ticket 和临时会话密钥

Ticket:一个票据,客户用它来向服务器证明自己的身份,包括客户标识、会话密钥、时间戳。

AS (Authentication Server): 认证服务器

TGS(Ticket Granting Server): 许可证服务器

TGT:Ticket-granting Ticket

2.2、Kerberos协议

分两部分

 Client从KDC获取TGT
 Client利用获取的TGT向KDC请求其他Service的Ticket

2.3、kerberos 认证的过程

认证过程也是Session Key安全发布的过程

2.4、Kerberos认证授权过程

2.5 kerberos 在hadoop 上面的应用

原文地址:http://blog.51cto.com/flyfish225/2113875

时间: 2024-08-05 12:25:39

hadoop的安全系列的相关文章

学习Hadoop不错的系列文章

1)Hadoop学习总结 (1)HDFS简介 (2)HDFS读写过程解析 (3)Map-Reduce入门 (4)Map-Reduce的过程解析 (5)Hadoop的运行痕迹 (6)Apache Hadoop 版本 2)Hadoop-0.20.0源代码分析 (1)Hadoop-0.20.0源代码分析(01) 地址:http://blog.csdn.net/shirdrn/article/details/4569702 (2)Hadoop-0.20.0源代码分析(02) 地址:http://blog

hadoop零基础系列之一:虚拟机下的Linux集群构建

经过了近两年的hadoop学习和使用,有必要把hadoop的学习进行一个总结,最好的方式就是以博客的方式来总结,既重新梳理以前的学习也可以和同行沟通交流,从今天开始将陆续推出hadoop零基础系列的文章, 当然总结过程中会参考相关方面的资料书,有些例子会直接来源与网络和书籍,我会在文中列出引用 考虑到初学者都是在单机的环境进行学习,所以我们采用虚拟机的方式来构建Linux集群,本篇我们先把Linux集群给构建起来,主机系统本人采用的系统是win7 旗舰版 1.虚拟机软件VMware 采用的VMw

Hadoop学习笔记系列文章导游【持续更新中...】

一.为何要学习Hadoop? 这是一个信息爆炸的时代.经过数十年的积累,很多企业都聚集了大量的数据.这些数据也是企业的核心财富之一,怎样从累积的数据里寻找价值,变废为宝炼数成金成为当务之急.但数据增长的速度往往比cpu和内存性能增长的速度还要快得多.要处理海量数据,如果求助于昂贵的专用主机甚至超级计算机,成本无疑很高,有时即使是保存数据,也需要面对高成本的问题,因为具有海量数据容量的存储设备,价格往往也是天文数字.成本和IT能力成为了海量数据分析的主要瓶颈. Hadoop这个开源产品的出现,打破

Hadoop学习笔记系列文章导航

一.为何要学习Hadoop? 这是一个信息爆炸的时代.经过数十年的积累,很多企业都聚集了大量的数据.这些数据也是企业的核心财富之一,怎样从累积的数据里寻找价值,变废为宝炼数成金成为当务之急.但数据增长的速度往往比cpu和内存性能增长的速度还要快得多.要处理海量数据,如果求助于昂贵的专用主机甚至超级计算机,成本无疑很高,有时即使是保存数据,也需要面对高成本的问题,因为具有海量数据容量的存储设备,价格往往也是天文数字.成本和IT能力成为了海量数据分析的主要瓶颈. Hadoop这个开源产品的出现,打破

Hadoop工作流概念学习系列总述(一)

不多说,这里,直接上干货!从这篇博客起,逐步分享如下: 1.工作流 2.Hadoop工作流(内置) 3.第三方框架--Azkaban(推荐外安装)

hadoop 入门学习系列十一----hue安装

1. hue整体架构 2.解压hue 3.安装依赖 yum install gmp-devel 4. 编译 make apps 5.修改hue的配置文件 desktop/conf/hue.ini 6.启动hue 7.Hue与hadoop集成 在hadoop的core-site.xml里增加配置 <property> <name>hadoop.proxyuser.hue.hosts</name> <value>*</value> </prop

linux上部署hadoop集群系列 基础篇

介绍 这一系列博文介绍hadoop集群的部署和安装,因为hadoop确实比较复杂,所以分为几个部分来一一介绍.大致有基础篇,HA-QJM篇,Federation篇. 正文 一.操作环境 虚拟机4台,配置基于hadoop的集群中包括4个节点:1个Master,3个Salve,节点之间局域网连接,可以相互ping通,Ip分布为: 168.5.15.112 hadoop1(Master) 168.5.15.116 hadoop2(Slave) 168.5.15.207 hadoop3(Slave) 1

Hadoop学习Day20---ZooKeeper系列(四)

使用ZooKeeper来构建应用 在一定程度上了解ZooKeeper之后,我们接下来要用ZooKeeper编写一些有用的应用程序. 一.配置服务 配置服务是分布式应用所需要的基本服务之一,它使集群中的机器可以共享配置信息中那些公共的部分.简单地说,ZooKeeper可以作为一个具有高可用性的配置存储器,允许分布式应用的参与者检索和更新配置文件.使用ZooKeeper中的观察机制,可以建立一个活跃的配置服务,使那些感兴趣的客户端能够获得配置信息修改的通知. 下面来编写一个这样的服务.我们通过两个假

大数据技术hadoop入门理论系列之二&mdash;HDFS架构简介

HDFS简单介绍 HDFS全称是Hadoop Distribute File System,是一个能运行在普通商用硬件上的分布式文件系统. 与其他分布式文件系统显著不同的特点是: HDFS是一个高容错系统且能运行在各种低成本硬件上: 提供高吞吐量,适合于存储大数据集: HDFS提供流式数据访问机制. HDFS起源于Apache Nutch,现在是Apache Hadoop项目的核心子项目. HDFS设计假设和目标 硬件错误是常态 在数据中心,硬件异常应被视作常态而非异常态. 在一个大数据环境下,