spark中transformation操作的各种算子（java版）

package cn.spark.study.core;

import java.util.Arrays;

import java.util.Iterator;

import java.util.List;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.FlatMapFunction;

import org.apache.spark.api.java.function.Function;

import org.apache.spark.api.java.function.Function2;

import org.apache.spark.api.java.function.VoidFunction;

import scala.Tuple2;

/**

* transformation操作实战

* @author dd

public class TransformationOperation {

public static void main(String[] args) {

//mapTest();

//filterTest();

//flatMapTest();

//groupByKeyTest();

//reduceByKeyTest();

//sortByKeyTest();

joinTest();

}

/**
 * map算子案例：
 * 将集合中的元素都乘以2
 */
private static void mapTest(){
    SparkConf conf = new SparkConf()
                    .setAppName("map")
                    .setMaster("local");
    JavaSparkContext sc = new JavaSparkContext(conf);

    List<Integer> numbers = Arrays.asList(1,2,3,4,5);

    JavaRDD<Integer> numberRDD = sc.parallelize(numbers);

    JavaRDD<Integer> multipleNumberRDD = numberRDD.map(new Function<Integer, Integer>() {

        private static final long serialVersionUID = 1L;

        @Override
        public Integer call(Integer arg0) throws Exception {
            // TODO Auto-generated method stub
            return arg0*2;
        }
    });

    multipleNumberRDD.foreach(new VoidFunction<Integer>() {

        @Override
        public void call(Integer arg0) throws Exception {
            // TODO Auto-generated method stub
            System.out.print(arg0+" ");
        }
    });

    sc.close();
}

/**
 * filter算子案例：
 * 过滤集合中的偶数
 */
private static void filterTest(){
    SparkConf conf =new SparkConf()
                    .setAppName("filter")
                    .setMaster("local");
    JavaSparkContext sc = new JavaSparkContext(conf);

    List<Integer> numbers = Arrays.asList(1,2,3,4,5,6,7,8,9,10);

    JavaRDD<Integer> numberRDD = sc.parallelize(numbers);

    //filter算子传入的也是Function，call方法的返回值是Boolean
    //每一个初始RDD中的元素都会传入call方法，如果想在新的RDD中保留该元素则返回true，否则返回false
    JavaRDD<Integer> evenNumberRDD = numberRDD.filter(new Function<Integer, Boolean>() {

        private static final long serialVersionUID = 1L;

        @Override
        public Boolean call(Integer arg0) throws Exception {
            // TODO Auto-generated method stub
            return arg0 % 2 == 0;
        }
    });

    evenNumberRDD.foreach(new VoidFunction<Integer>() {

        private static final long serialVersionUID = 1L;

        @Override
        public void call(Integer arg0) throws Exception {
            System.out.println(arg0);

        }
    });

    sc.close();
}

/**
 * flatMap算zi
 * 拆分一行文本的单词
 */
private static void flatMapTest(){
    SparkConf conf = new SparkConf()
                    .setAppName("faltMap")
                    .setMaster("local");
    JavaSparkContext sc = new JavaSparkContext(conf);

    List<String> lineList = Arrays.asList("hello you","hello me","hello world");

    JavaRDD<String> lines = sc.parallelize(lineList);

    /*
     * 对RDD执行flatMap算子将每一行文本拆分为多个单词
     * flatMap其实就是接收原始RDD中的每个元素，并进行各种处理返回多个元素，即封装在Iterable中
     * 新的RDD中，即封装了所有的新元素，所以新的RDD大小一定大于原始的RDD
     */
    JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {

        private static final long serialVersionUID = 1L;

        @Override
        public Iterable<String> call(String arg0) throws Exception {
            // TODO Auto-generated method stub
            return Arrays.asList(arg0.split(" "));
        }
    });

    words.foreach(new VoidFunction<String>() {

        private static final long serialVersionUID = 1L;

        @Override
        public void call(String arg0) throws Exception {
            // TODO Auto-generated method stub
            System.out.println(arg0);
        }
    });

    sc.close();
}

/**
 * groupByKey算子
 * 案例：按照班级对成绩进行分组
 */
private static void groupByKeyTest(){
    SparkConf conf = new SparkConf()
                    .setAppName("groupByKey")
                    .setMaster("local");
    JavaSparkContext sc = new JavaSparkContext(conf);

    List<Tuple2<String, Integer>> scores = Arrays.asList(
                    new Tuple2<String, Integer>("class1",80),
                    new Tuple2<String, Integer>("class2",75),
                    new Tuple2<String, Integer>("class1",90),
                    new Tuple2<String, Integer>("class2",65));

    //创建JavaPairRDD
    JavaPairRDD<String, Integer> scoresRDD = sc.parallelizePairs(scores);

    JavaPairRDD<String, Iterable<Integer>> groupScores = scoresRDD.groupByKey();

    groupScores.foreach(new VoidFunction<Tuple2<String,Iterable<Integer>>>() {

        @Override
        public void call(Tuple2<String, Iterable<Integer>> arg0) throws Exception {
            // TODO Auto-generated method stub
            System.out.println("class:"+arg0._1);
            Iterator<Integer> it = arg0._2.iterator();
            while(it.hasNext()){
                System.out.println(it.next());
            }
            System.out.println("====================================");
        }
    });

    sc.close();
}

/**
 * reduceByKey算子
 * 案例：求各个班级总分
 */
private static void reduceByKeyTest(){
    SparkConf conf = new SparkConf()
    .setAppName("reduceByKey")
    .setMaster("local");
    JavaSparkContext sc = new JavaSparkContext(conf);

    List<Tuple2<String, Integer>> scores = Arrays.asList(
            new Tuple2<String, Integer>("class1",80),
            new Tuple2<String, Integer>("class2",75),
            new Tuple2<String, Integer>("class1",90),
            new Tuple2<String, Integer>("class2",65));

    JavaPairRDD<String, Integer> scoresRDD = sc.parallelizePairs(scores);

    JavaPairRDD<String, Integer> totalScores = scoresRDD.reduceByKey(new Function2<Integer, Integer, Integer>() {

        private static final long serialVersionUID = 1L;

        @Override
        public Integer call(Integer arg0, Integer arg1) throws Exception {
            // TODO Auto-generated method stub
            return arg0+arg1;
        }
    });

    totalScores.foreach(new VoidFunction<Tuple2<String,Integer>>() {

        @Override
        public void call(Tuple2<String, Integer> arg0) throws Exception {
            // TODO Auto-generated method stub
            System.out.println(arg0._1+" : "+arg0._2);
        }
    });

    sc.close();
}

/**
 * sortByKey算子
 * 案例：对学生成绩进行排序
 */
private static void sortByKeyTest(){
    SparkConf conf = new SparkConf()
    .setAppName("sortByKey")
    .setMaster("local");
    JavaSparkContext sc = new JavaSparkContext(conf);

    List<Tuple2<Integer, String>> scores = Arrays.asList(
            new Tuple2<Integer, String>(10,"leo"),
            new Tuple2<Integer, String>(100,"ksc"),
            new Tuple2<Integer, String>(99,"my"),
            new Tuple2<Integer, String>(80,"jack"));

    JavaPairRDD<Integer, String> scoresRDD = sc.parallelizePairs(scores);

    //默认true升序，false降序
    JavaPairRDD<Integer, String> sortedRDD = scoresRDD.sortByKey();

    sortedRDD.foreach(new VoidFunction<Tuple2<Integer,String>>() {

        @Override
        public void call(Tuple2<Integer, String> arg0) throws Exception {
            System.out.println(arg0._1+": "+arg0._2);

        }
    });

    sc.close();
}

/**
 * join
 * 案例：打印学生成绩
 */
private static void joinTest(){
    SparkConf conf = new SparkConf()
                    .setAppName("joinandCogroup")
                    .setMaster("local");
    JavaSparkContext sc = new JavaSparkContext(conf);

    List<Tuple2<Integer, String>> studentsList = Arrays.asList(
            new Tuple2<Integer, String>(1,"leo"),
            new Tuple2<Integer, String>(2,"jack"),
            new Tuple2<Integer, String>(3,"tom"));
    List<Tuple2<Integer, Integer>> scoresList = Arrays.asList(
            new Tuple2<Integer, Integer>(1,100),
            new Tuple2<Integer, Integer>(2,90),
            new Tuple2<Integer, Integer>(3,60));

    //并行化两个集合
    JavaPairRDD<Integer, String> studentsRDD = sc.parallelizePairs(studentsList);
    JavaPairRDD<Integer, Integer> scoresRDD = sc.parallelizePairs(scoresList);

    //使用join算子关联两个RDD
    JavaPairRDD<Integer, Tuple2<String, Integer>> studentscores = studentsRDD.join(scoresRDD);

    studentscores.foreach(new VoidFunction<Tuple2<Integer,Tuple2<String,Integer>>>() {

        @Override
        public void call(Tuple2<Integer, Tuple2<String, Integer>> arg0)
                throws Exception {
            // TODO Auto-generated method stub
            System.out.println("student id : "+arg0._1);
            System.out.println("student name： "+arg0._2._1);
            System.out.println("student score: "+arg0._2._2);
            System.out.println("==========================================");
        }
    });
}

}

时间： 2024-09-29 01:24:51

spark中transformation操作的各种算子（java版）的相关文章

spark 中的RDD编程 -以下基于Java api

1.RDD介绍: RDD,弹性分布式数据集,即分布式的元素集合.在spark中,对所有数据的操作不外乎是创建RDD.转化已有的RDD以及调用RDD操作进行求值.在这一切的背后,Spark会自动将RDD中的数据分发到集群中,并将操作并行化. Spark中的RDD就是一个不可变的分布式对象集合.每个RDD都被分为多个分区,这些分区运行在集群中的不同节点上.RDD可以包含Python,Java,Scala中任意类型的对象,甚至可以包含用户自定义的对象. 用户可以使用两种方法创建RDD:读取一个

操作系统中的几种调度算法（JAVA版）

1 import java.text.DecimalFormat; 2 import java.util.Arrays; 3 import java.util.Scanner; 4 5 /* 6 * 作者:Chensx1020 7 * 时间:2016-12-11 8 * 功能:CPU调度算法 9 * 1)先到先服务调度算法(FCFS) 10 * 2)最短作业优先调度算法,非抢占式(SJF) 11 * 3)优先级调度算法(PSA) 12 * 4)轮转法调度算法(RR) 13 * 5)最高响应比调度

字符串中的空格替换问题（Java版）

解决方式一:时间复杂度为O(n^2) 解决方式二:时间复杂度为O(n) 代码实现: package string; public class SpaceStringReplace2 { //len为数组大小的总容量 public static void SpaceReplace(String strOld,int len){ char[] chs =new char[len]; char[] ch = strOld.toCharArray(); for (int i = 0; i < ch.le

Spark中的各种action算子操作（java版）

在我看来,Spark编程中的action算子的作用就像一个触发器,用来触发之前的transformation算子.transformation操作具有懒加载的特性,你定义完操作之后并不会立即加载,只有当某个action的算子执行之后,前面所有的transformation算子才会全部执行.常用的action算子如下代码所列:(java版) package cn.spark.study.core; import java.util.Arrays; import java.util.List; im

【Spark】RDD操作详解1——Transformation和Actions概况

Spark算子的作用下图描述了Spark在运行转换中通过算子对RDD进行转换. 算子是RDD中定义的函数,可以对RDD中的数据进行转换和操作. 输入:在Spark程序运行中,数据从外部数据空间(如分布式存储:textFile读取HDFS等,parallelize方法输入Scala集合或数据)输入Spark,数据进入Spark运行时数据空间,转化为Spark中的数据块,通过BlockManager进行管理. 运行:在Spark数据输入形成RDD后便可以通过变换算子,如filter等,对数据进行操

流处理 —— Spark Streaming中的操作函数

1.1 map(fun) 操作 map操作需要传入一个函数当做参数, 主要作用是,对DStream对象a,将func函数作用到a中的每一个元素上并生成新的元素,得到的DStream对象b中包含这些新的元素. val conf = new SparkConf().setMaster("local[2]").setAppName("file streaming") val sc = new SparkContext(conf) val ssc = new Streami

Spark中的键值对操作-scala

1.PairRDD介绍 Spark为包含键值对类型的RDD提供了一些专有的操作.这些RDD被称为PairRDD.PairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口.例如,PairRDD提供了reduceByKey()方法,可以分别规约每个键对应的数据,还有join()方法,可以把两个RDD中键相同的元素组合在一起,合并为一个RDD. 2.创建Pair RDD 程序示例:对一个英语单词组成的文本行,提取其中的第一个单词作为key,将整个句子作为value,建立 PairR

java中Integer包装类的详细讲解(java二进制操作,所有进制转换)

程序员都很懒,你懂的! 今天为大家分享的是Integer这个包装类.在现实开发中,我们往往需要操作Integer,或者各种进制的转换等等.我今天就为大家详细讲解一下Integer的使用吧.看代码: package com.herman.test; public class IntegerTest { public static void main(String[] args) { System.out.println("Integer中的常量***************************

Spark的transformation 和 action的操作学习笔记

一.spark的transformation 和 action区别 Spark有一些基本的transformation 和 action的操作,其中transformation形成各类型的RDD,action不形成RDD,而是对RDD进行累加.合并.保存操作. 二.transformation 有哪些 transformation有map.filter.flatMap(与map不一样).Sample.groupByKey.ReduceByKey.Union.Join.cogroup.crossP