python pyspark入门篇

一.环境介绍:

1.安装jdk 7以上

2.python 2.7.11

3.IDE pycharm

4.package: spark-1.6.0-bin-hadoop2.6.tar.gz

二.Setup

1.解压spark-1.6.0-bin-hadoop2.6.tar.gz 到目录D:\spark-1.6.0-bin-hadoop2.6

2.配置环境变量Path,添加D:\spark-1.6.0-bin-hadoop2.6\bin,此后可以在cmd端输入pySpark,返回如下则安装完成:

3.将D:\spark-1.6.0-bin-hadoop2.6\python下的pySpark文件拷贝到C:\Python27\Lib\site-packages

4.安装py4j , pip install py4j -i https://pypi.douban.com/simple

5.配置pychar环境变量:

三.Example

1.make a new python file: wordCount.py

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import sys
from pyspark import SparkContext
from operator import add
import  re

def main():
    sc = SparkContext(appName= "wordsCount")
    lines = sc.textFile(‘words.txt‘)
    counts = lines.flatMap(lambda  x: x.split(‘ ‘))                .map( lambda  x : (x, 1))                .reduceByKey(add)
    output = counts.collect()
    print output
    for (word, count) in output:
        print "%s: %i" %(word, count)

    sc.stop()

if __name__ =="__main__":
    main()

2.代码中的words.txt如下:

The dynamic lifestyle
people lead nowadays
causes many reactions
 in our bodies and
 the one that is the
 most frequent of all
 is the headache

3.配置pycharm环境变量:

3.1 工具栏 run --> Edit configuration-->点击箭头位置

3.2  然后点击 + ,输入key:SPARK_HOME, value: D:\spark-1.6.0-bin-hadoop2.6

4.输出结果如下图:

四.深入练习:

1.文档:http://spark.apache.org/docs/latest/api/python/pyspark.html

2.在解压的Spark文档下,有example下有很多实例可以练习。D:\spark-1.6.0-bin-hadoop2.6\examples\src\main\python

时间: 2024-12-20 05:55:33

python pyspark入门篇的相关文章

python之入门篇

1., 连接符,返回的是多个值,返回逗号两边的值 + 连接符,返回一个值 2.print 后面的值必须先定义再调用 3.'''....''' 代表多行表示字符串,省略\n 4.r 表示后面的内容是字符串,省去\的转义 5.u(u必须紧靠语句) 对字符串进行Unicode编码# -*- coding: utf-8 -*- 遇见unicodeDecodeErrot就进行这个语句 6.10 / 4 ==> 2 整数之间运算永远都是整数 7.and 1. 在计算 a and b 时,如果 a 是 Fal

python自动化测试入门篇-jemter参数化

一.Jmeter参数化 1.使用用户自定义变量 用户定义的变量,引用方式:${定义参数名称};例如定义一个变量IP,使用它的时候用 ${IP}. 添加一个 User Defined Variables.  选中Thread Group: 右键 Add -> Config Element -> User Defined Variables 添加一个变量ip 在http request中使用这个变量 高端配置: A. 线程组-配置原件-用户自动化变量,添加IP变量,设置ip参数值 B. 线程组-配

问道python之基础篇【二】python入门

问道python之基础篇[二] Python入门 1.python的工作过程 python解释器把源代码转换为字节码的中间形式,然后再把它翻译成机器使用的机器语言并运行. 2.pyc文件 2.1.什么是pyc文件 执行python代码时,如果导入了其他的.py文件,那么在执行过程中会自动生成一个与其同名的.pyc文件,该文件就是python解释器编译之后产生的字节码. ps:代码经过编译可以产生字节码:字节码通过反编译也可以得到代码. Pyc文件一般由3个部分组成: 最开始4个字节是一个Maig

Python入门篇之列表

一.声明 本教程所使用的是Python版本是3.4.2. 二.Python列表介绍 Python列表(List)使用简单而且功能强大,其具有很好的可伸缩性,为开发者编程提供了巨大的便利. [列表变量声明] 列表变量的声明和C语言中声明数组的方式差不多.下图中声明了一个名为 list 的列表变量. [列表元素的索引方式] 笔者在<Python入门篇之字符串使用>一文中介绍过字符串中字符的索引方式.列表元素的索引方式和字符串字符的索引方式是一样的,都是根据元素间隙位置来切割出元素内容.下面做详细说

Python学习(一):入门篇:python中的一些数据结构

Python里的一些基本知识点总结 Last Edit 2014/5/2 这里记录的是Python2.7版本的语法特征,部分与Python3.0是不一样的. 一,关于开发环境 在windows下可以直接在官网下载相关的版本,然后默认安装.使用直带的IDLE编辑器. IDLE中两个有用的快捷键: ALT+P:重复历史命令(从最近到最老) ALT+N:   重复历史命令(从最老到最近) IDLE中没有清屏功能. 在cmd中进行: 1,首先要在环境变量的path中添加相关的路径: C:\Python2

Python学习基础篇第一篇——快速入门(适合初学者)

一.Python学习基础篇第一篇--(快速入门) 建议从Python2.7开始学习,Python2.7可以支持扩展大量的第三方类库,是目前比较成熟的版本 编写代码的软件推荐将python自带的IDLE和PyCharm集成IDE结合起来使用 1.1 Python命令行 Python命令行将以 >>> 开始,比如 >>>print 'Hello World!' 对于验证简单的命令可以在python自带的IDLE中完成  1.2 在Python自带的IDLE写一段小程序 在所

Python学习(三):入门篇:Python中怎么编写类

Python中怎么编写类 Last Edit 2013/5/2 先看一个例子: #person.py class person: """class to representaion a person""" def __init__(self,name,age): self.name=name if 0<age<=150: self.age=age else: print 'age is no valid!' def display(s

Python学习(二):入门篇:python中流程控制与函数编写

python中流程控制与函数编写 Last Eidt 2014/5/2 转载请注明出处http://blog.csdn.net/jxlijunhao 一,流程控制 1)布尔逻辑 Python中利用True来表示逻辑真,False来逻辑假 not :非 and:与 or   :或 ==  :逻辑等 >>> False==True False >>> False==False True >>> not False True >>> Fal

学习python之路_入门篇A

偶尔经同事的介绍进入了金角大王的博客里,看到大王编写的文章都是关于python编程的,由于自己一直也是做软件测试方面的工作,也一直想往自动化测试方面发展,了解到利用python可以进行自动化测试操作,可以减少人工测试的繁锁操作. 读了python的基础篇了解了python的发展历史及python的基础知识点,就开始跟着课程去编写一些小脚本. 如下面是使用了for循环的语句: 1 for i in range(10): 2 print("*******",i) 3 for j in ra