Linux配置Spark

下载预构建好的Spark压缩包

进入Spark官网下载页面下载你需要的安装包,这里我选择预构建好的、现在最新的压缩包-Download Spark: spark-2.3.2-bin-hadoop2.7.tgz

下载:wget https://www.apache.org/dyn/closer.lua/spark/spark-2.3.2/spark-2.3.2-bin-hadoop2.7.tgz

解压: tar zxvf spark-2.3.2-bin-hadoop2.7.tgz

添加环境变量

export PATH=$PATH:home/sy/spark-2.3.2-bin-hadoop2.7/bin

可以先进入解压后的目录,然后输入pwd获取当前目录

如果需要永久开机配置,在用户名目录下输入ls -a,有一个.bashrc文件,使用vi打开,添加环境变量如下:

保存后,source .bashrc,使得环境变量立即生效。

Java环境

输入java -version,显示:

openjdk version "1.8.0_161"
OpenJDK Runtime Environment (build 1.8.0_161-b14)
OpenJDK 64-Bit Server VM (build 25.161-b14, mixed mode)

说明java环境已经配置成功,如果没有的话,可能需要配置一下。

检查配置是否成功

输入spark-shell,显示下面信息说明配置成功

安装pyspark

pip install pyspark

测试

我们测试这个链接中的例子:https://github.com/apache/spark/blob/master/examples/src/main/python/ml/pca_example.py

新建pca.py文件,输入代码后执行python pca.py即可,输出如下:

原文地址:https://www.cnblogs.com/sunyanqinyin/p/9787958.html

时间: 2024-10-10 22:41:27

Linux配置Spark的相关文章

Linux下Spark框架配置(Python)

简述  Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点:但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法.由于spark带有Python的API,而本人比较专于Python语言.因此在此分享一下我在配置spark的方法以及心得. 配置过程 步骤一: 下

linux配置vncserver服务

挨踢这么多年,几乎很少记录自己解决的问题,因为总感觉那些问题对于高手来说,都是小菜,所以碍于颜面,不好意思写! 后来想明白了,写下来,能帮助新手,又能帮自己做个记录,下次碰到同样问题,就不用百度google了-- 这篇就算***作吧,好了,言归正传-- 想连接某台linux服务器,方法很多,但是听说除了vnc,其他方法断开网络后,程序会中断运行,只是听说,具体是不是这样,我就不太清楚了,为了保险,还是就用vnc吧. 1.           安装vncserver 我安装linux系统的时候,没

Kali—Linux配置jdk时出现的一点问题。

jdk 本来应该是几天前就配好了的今天打开终端忽然发现一个问题. : 以及好几行悬在终端最上方. 找了找,在以下步骤里面: Kali Linux配置jdk应执行 gedit ~/.bashrc 并添加下列内容 export JAVA_HOME=/usr/local/src/jdk export CLASSPATH=/usr/local/src/jdk/libexport PATH=${JAVA_HOME}/bin:$PATH 很多习惯写代码的同学喜欢在等号前后加上空格,这就导致了无法识别标识符!

Linux 配置双机SSH信任

Linux 配置双机SSH信任 一.实现原理 使用一种被称为"公私钥"认证的方式来进行ssh登录."公私钥"认证方式简单的解释是: 首先在客户端上创建一对公私钥(公钥文件:~/.ssh/id_rsa.pub:私钥文件:~/.ssh/id_rsa),然后把公钥放到服务器上(~/.ssh/authorized_keys),自己保留好私钥.当ssh登录时,ssh程序会发送私钥去和服务器上的公钥做匹配.如果匹配成功就可以登录了. 二.实验环境 A机:TS-DEV/10.0.

linux配置java環境變量

首先先root,然後vim /etc/profile修改文件. 在最後面添加下面幾句(當然,路徑是你自己的路徑,或者JDK版本是不一樣). 之後在終端裏輸入 source /etc/profile 這樣配置文件才能立馬生效. 配置JAVA_HOME的用處的方便其他需要JDK的軟件的使用,例如tomcat. linux配置java環境變量,布布扣,bubuko.com

linux 配置多IP

这里以红帽Linux为例.假定原系统已配置一个IP,地址为:192.168.20.140,配置文件路径/etc/sysconfig/network-script/ifcfg-eth0.现在需要配置一个网段为192.168.1的IP. 步骤(需要root用户权限): 1.cp /etc/sysconfig/network-script/ifcfg-eth0 /etc/sysconfig/network-script/ifcfg-eth1 2.vi /etc/sysconfig/network-sc

linux配置java环境变量(详细) -copy

一. 解压安装jdk 在shell终端下进入jdk-6u14-linux-i586.bin文件所在目录, 执行命令 ./jdk-6u14-linux-i586.bin 这时会出现一段协议,连继敲回车,当询问是否同意的时候,输入yes,回车.之后会在当前目录下生成一个jdk1.6.0_14目录,你可以将它复制到 任何一个目录下. 二. 需要配置的环境变量 1. PATH环境变量.作用是指定命令搜索路径,在shell下面执行命令时,它会到PATH变量所指定的路径中查找看是否能找到相应的命令程序.我们

Linux配置定时,使用 crontab -e 与 直接编辑 /etc/crontab 的区别

转自:http://blog.csdn.net/catoop/article/details/41821395 版权声明:本文为博主原创文章,未经博主允许不得转载. Linux配置定时任务,大家都知道使用crontab这个系统功能,但有时候我们需要区分用户执行,下面就直接说一下2种方法的区别: 方法1: 使用命令 crontab -e 然后直接编辑定时脚本. 这样执行以后,属于用户自定义的,会被写到 /var/spool/cron 目录下,生成一个和用户名一致的文件,文件内容就是我们编辑的定时脚

Linux配置支持高并发TCP连接(socket最大连接数)

Linux配置支持高并发TCP连接(socket最大连接数)及优化内核参数 2011-08-09 15:20:58|  分类:LNMP&&LAMP|  标签:内核调优  文件系统调优  高并发调优  socket连接  ip_conntract  |字号大中小 订阅 1.修改用户进程可打开文件数限制在 Linux平台上,无论编写客户端程序还是服务端程序,在进行高并发TCP连接处理时,最高的并发数量都要受到系统对用户单一进程同时可打开文件数量的限制(这是因为系统为每个TCP连接都要创建一个s