【Spark学习】Apache Spark安全机制

Spark版本：1.1.1

本文系从官方文档翻译而来，转载请尊重译者的工作，注明以下链接：

http://www.cnblogs.com/zhangningbo/p/4135808.html

　　现在，Spark支持通过共享秘钥进行认证。启用认证功能可以通过参数spark.authenticate来配置。此参数控制spark通信协议是否使用共享秘钥进行认证。这种认证方式基于握手机制，以确保通信双方都有相同的共享秘钥时才能通信。如果共享秘钥不一致，则双方将无法通信。可以通过以下过程来创建共享秘钥：

在spark on YARN部署模式下，配置spark.authenticate为true，就可以自动产生并分发共享秘钥。每个应用程序都使用唯一的共享秘钥。
其他部署方式下，应当在每个节点上都配置参数spark.authenticate.secret。此秘钥将由所有Master、worker及应用程序来使用。
注意：实验性的Netty shuffle路径（spark.shuffle.use.netty）是不安全的，因此，如果启用认证功能就不要使用Netty for shuffle了。

Web UI

通过设置参数spark.ui.filters来使用javax servlet filters就可以实现安全的spark UI。如果用户有某些不该让其他人看到的数据，那么该用户就会要求UI也能有安全性。用户指定了Java servlet filter就可以进行认证了。接下来，一旦用户登录，spark就可以在ACL列表中查询该用户是否有权查看UI。配置参数spark.acls.enable和spark.ui.view.acls控制着ACL的行为。注意：启动应用程序的用户总是有权访问UI。在YARN上，spark UI使用标准的YARN web代理机制并通过已安装的Hadoop filters进行认证。

spark还支持通过修改ACL表来控制哪个用户有权修改正在运行着的spark应用程序。比如，kill一个应用程序或任务。这类操作是通过配置spark.acls.enable和spark.modify.acls来控制的。注意：如果你正在认证Web UI，那么，为了使用Web UI上的kill按钮，你就必须把用户添加到view acls表中。在YARN上，修改后的acls被传入并控制着哪个用户可以通过YARN接口来访问web UI。

如果有多个管理员存在，那么spark允许在acls中指定多个管理员，让他们总可以查看所有应用程序，以及修改应用的权限。这一功能是由配置参数spark.admin.acls来控制的。这在共享集群上是很有用的，因为这类集群中往往有多个管理员或者帮助用户调试程序的技术支持人员。

事件日志

如果应用程序正在使用事件日志记录功能，那么，应当手动创建用来存放事件日志的路径

（spark.eventLog.dir），并赋予其合适的权限。如果你想让这些日志文件也是安全的，那么，该路径的权限应当设为drwxrwxrwxt。该路径的所有者应该是正在运行history server进程的那个超级用户，而且用户组权限应限制为超级用户组。这样做可以让所有用户都能对该路径执行写操作，但会阻止那些未经授权的用户删除或重命名文件，除非他们是该文件或者路径的所有者。事件日志文件由spark创建并赋予权限，比如只有所有者及其所在用户组有读写权限。

网络安全（配置端口）

spark大量使用网络，而且有些环境严格要求使用严密的防火墙设置。下面是spark用于通信的主要端口，以及如何配置这些端口。

仅适用于Standalone模式的端口

From	To	默认端口	用途	配置	备注
Browser	Standalone Master	8080	Web UI	spark.master.ui.port / SPARK_MASTER_WEBUI_PORT	Jetty-based，仅用于Standalone模式
Browser	Standalone Worker	8081	Web UI	spark.worker.ui.port / SPARK_WORKER_WEBUI_PORT	Jetty-based，仅用于Standalone模式
Driver / Standalone Worker	Standalone Master	7077	向集群提交作业（Submit）	SPARK_MASTER_PORT	Akka-based。设为0意思是随机选择端口，仅用于Standalone模式
Standalone Master	Standalone Worker	random	调度executors	SPARK_WORKER_PORT	Akka-based。设为0意思是随机选择端口，仅用于Standalone模式

适用于所有集群管理器的通用端口

From	To	默认端口	用途	配置	备注
Browser	Application	4040	Web UI	spark.ui.port	Jetty-based
Browser	History Server	18080	Web UI	spark.history.ui.port	Jetty-based
Executor / Standalone Master	Driver	random	连接到Application，或通知executor状态变化	spark.driver.port	Akka-based。设为0意思是随机选择端口
Driver	Executor	random	调度任务task	spark.executor.port	Akka-based。设为0意思是随机选择端口
Executor	Driver	random	files和jars文件服务器	spark.fileserver.port	Jetty-based
Executor	Driver	random	HTTP广播	spark.broadcast.port	Jetty-based，TorrentBroadcast不使用该端口，它通过block manager发送数据
Executor	Driver	random	类（class）文件服务器	spark.replClassServer.port	Jetty-based，仅用于spark shell
Executor / Driver	Executor / Driver	random	Block Manager端口	spark.blockManager.port	Raw socket via ServerSocketChannel

有关安全的配置参数详见配置页面，安全机制的实现参考 org.apache.spark.SecurityManager。

时间： 2024-10-07 06:08:45

【Spark学习】Apache Spark安全机制

目录

Web UI

事件日志

网络安全（配置端口）

仅适用于Standalone模式的端口

适用于所有集群管理器的通用端口

【Spark学习】Apache Spark安全机制的相关文章

【Spark学习】Spark 1.1.0 with CDH5.2 安装部署

Spark学习之Spark安装

Spark学习(一) Spark初识

Spark学习9 Spark Streaming流式数据处理组件学习

Spark学习笔记——Spark Streaming

Spark学习笔记-Spark Streaming

spark学习笔记-spark集群搭建（7）

Spark学习笔记——Spark上数据的获取、处理和准备

Spark学习摘记 —— Spark转化操作API归纳

使用Apache Spark 对 mysql 调优查询速度提升10倍以上