机器学习 - 开发环境安装pycharm + pyspark + spark集成篇

AS WE ALL KNOW，学机器学习的一般都是从python+sklearn开始学，适用于数据量不大的场景（这里就别计较“不大”具体指标是啥了，哈哈）

数据量大了，就需要用到其他技术了，如：spark, tensorflow，当然也有其他技术，此处略过一坨字...

先来看看如何让这3个集成起来吧（WINDOWS环境）：pycharm(python开发环境), pyspark.cmd(REPL命令行接口), spark(spark驱动、MASTER等)

download Anaconda, latest version, which 64bit support for windows, 这里必须安装64位版本的Anaconda，因为后面tensorflow只支持64位的

https://www.continuum.io/downloads/

安装Anaconda，都是默认选项就行

dowload pycharm from jetbrain site, and install (please do it by yourself)，这个很简单，直接略过

接下来是下载spark，我下的是最新版2.1.0的 http://spark.apache.org/downloads.html

解压缩后把它复制到一个容易找的目录，我这是C:\spark-2.1.0-bin-hadoop2.7

这个时候如果直接双击bin下的spark-shell.cmd文件的话是会报错的，主要原因是没有winutils.exe这东西(用来在windows环境下模拟文件操作的)，因此还需要做几个小步骤才能正常启动

1. 设置一个假的hadoop目录，在这个目录的bin下放刚才说的那个winutils.exe文件(需要自己创建bin目录)

2. 设置环境变量HADOOP_HOME，值为这个假的hadoop目录

3. 拷贝winutils.exe到这个bin里，下载

OK，这时可以双击spark-shell.cmd了，如下：

HOHO, ==，==，我们不是要搞PYTHON环境嘛，怎么搞scala了，别急，先搞scala是因为先要把基本的给走通，再去搞python环境的接口。

python接口的REPL是这个文件，pyspark.cmd，双击，也报错...

别急，这里是因为python版本问题，anaconda最新版的python解释器版本是3.6.1，这个版本的spark不支持，需要降低版本到3.5

卸载python? 不用，用anaconda的环境切换就行了

1. 先创建一个新的开发环境: conda create -n my_new_env_python35

2. 激活这个新的开发环境: activate my_new_env_python35

3. 在这个新的开发环境中安装python 3.5: conda install python=3.5

这时python3.5版本的解释器就算是安装完成了，默认目录在C:\ProgramData\Anaconda3\envs\my_new_env_python35\python.exe

然后就是需要把spark的python支持包复制到相应的路径中了，从下图1复制到my_new_env_python35环境的Lib\site-packages目录下

接下来需要把python默认版本改成python3.5，需要修改PATH路径，把python3.5的路径放在第一个查找路径下就行了

然后就开始整pycharm开发环境了。

首先肯定是新建一个python项目了，然后改设置，用来指定python解释器的路径，菜单：File-->Settings

接着设置运行时候的配置参数

漏了python调用pyspark的代码了，代码如下：

import sys

from operator import add

from pyspark import SparkContext

if __name__ == "__main__":

sc = SparkContext(appName="PythonWordCount")

lines = sc.textFile(‘words.txt‘)

count=lines.count()

print(count)

counts = lines.flatMap(lambda x: x.split(‘ ‘)) \

.map(lambda x: (x, 1)) \

.reduceByKey(add)

output = counts.collect()

for (word, count) in output:

print("%s: %i" % (word, count))

sc.stop()

至此，python环境算是搞定了。

出处：https://www.cnblogs.com/aarond/p/pyspark.html

原文地址：https://www.cnblogs.com/mq0036/p/10347596.html

时间： 2025-01-18 00:51:48

机器学习 - 开发环境安装pycharm + pyspark + spark集成篇的相关文章

机器学习 - 开发环境安装pycharm + tensorflow集成篇

继续上篇的pyspark集成后,我们再来看看当今热的不得了的tensorflow是如何继承进pycharm环境的参考: http://blog.csdn.net/include1224/article/details/53452824 思路其实很简单,说下要点吧 1. python必须要3.5 64位版本(上一篇直接装的是64位版本的Anaconda) 2. 激活3.5版本的python环境,用activate {env name}就行了 3. 在激活的环境中运行pip install --u

构建一个基本的前端自动化开发环境 —— 基于 Gulp 的前端集成解决方案（四）

通过前面几节的准备工作,对于 npm / node / gulp 应该已经有了基本的认识,本节主要介绍如何构建一个基本的前端自动化开发环境. 下面将逐步构建一个可以自动编译 sass 文件.压缩 javascript 文件.多终端多浏览器同步测试的开发环境,并且还可以通过 piblish 命令对项目下的文件进行打包操作. 相关连接导航在windows下安装gulp —— 基于 Gulp 的前端集成解决方案(一) 执行 $Gulp 时发生了什么 —— 基于 Gulp 的前端集成解决方案(二) 常

第1章开发环境安装和配置（一）：概述

原文第1章开发环境安装和配置(一):概述目前Android在全世界市场上大约有75%的占有率,国人Android手机的持有比例更甚,甚至达到90%以上[网上找的介绍,不必在意]. 用C#开发手机应用程序,建议首选VS2015,这是因为VS2015内置的是C# 6.0,很多原来实现起来比较繁琐的操作,在VS2015下也都变得非常简单了. 1.跨平台移动应用开发 VS2015的移动跨平台采用Xamarin架构,这让原本就熟悉Visual Studio的开发者不用再熟悉其他的开发工具就能直接开发

在linux ubuntu下搭建深度学习/机器学习开发环境

一.安装Anaconda 1.下载下载地址为:https://www.anaconda.com/download/#linux 2.安装anaconda,执行命令: bash ~/Downloads/Anaconda3-5.1.0-Linux-x86_64.sh 3.在安装过程中会显示配置路径 Prefix=/home/jsy/anaconda2/ 4.安装完之后,运行python,仍是ubuntu自带的python信息,需自己设置下环境变量 5.在终端输入$sudo gedit /etc/p

mac 开发环境安装使用记录

---恢复内容开始--- 常用命令 1 查找文件位置: $locate php-fpm 软件变动的话更新locate本地库,可能比较耗时. $sudo /usr/libexec/locate.updatedb 2 查找运行文件位置 $whereis php-fpm $witch php-fpm 所有命令最好再超级管理员下运行,防止权限问题.要不然每次加sudo也很烦,另外安装是最好删除掉以前安装的软件 homebrew部分是一个非常好的mac下的开发软件管理器.集安装卸载升级于一体.非常方便.

React Native 开发环境安装和配置使用报错: -bash: react-native: command not found

[React Native 开发环境安装和配置:-bash: react-native: command not found 报错: 前提是安装homebrew,node.js ,npm ,watchman,flow都成功.React Native 开发环境安装和配置执行react-native init TestProject 命令创建demo时报错:-bash: react-native: command not found 报错提示:Please include the follo

Linux环境安装xmapp（PHP-Mysql集成环境）

xmapp是很多初学者使用的PHP环境集成包,用yum在linux安装的php和mysql版本现在都很低,xmapp可以解决这个问题,下面我们直接进入正题,安装一个php集成环境. 我使用的是vm虚拟机,安装的是centos7. 第一步:下载xmapp 到https://www.apachefriends.org/zh_cn/index.html下载集成包,选择xmapp for linux,我选择的版本是xampp-linux-x64-5.6.30-1-installer.run.点击下载,可

linux下c++开发环境安装(eclipse+cdt)

方法一: 此外,众所周知,Eclipse是Java程序,因此很容易就实现了跨平台,也是众所周知,Java的大型程序非常吃内存,即使有512MB内存, 仍然感觉Eclipse的启动速度很慢.个人认为1GB内存是你工作效率的保证.其余的东西,需待我深入学习以后再进一步分析. 据网友的经验,先安装Eclipse Classic,然后再装CDT(C/C++ Development Tool),这样虽然体积大了一点但是方便日后添加Tool Kit. 在Ubuntu上安装Eclipse有两种方法:1. 使用

Typescript 开发环境安装、Node.js安装以及输出HelloWorld

1.为什么要学习Typescript 语言呢原因很简单,当然是为了工作呀,因为工作使我接触到了Typescript语言,感觉它比较像C#.Java 这样面向对象的语言,由于最近在使用它开发项目所以系统学习一下,在此记录一下学习过程. 2.Typescript 语言百度百科介绍 TypeScript是一种由微软开发的自由和开源的编程语言.它是JavaScript的一个超集,而且本质上向这个语言添加了可选的静态类型和基于类的面向对象编程.TypeScript还遵循ES6.ES5规范,同时因为是Ja