Eclipse 编写的spark版WordCount运行在spark上

1、代码编写

if (args.length != 3 ){
      println("usage is org.test.WordCount <master> <input> <output>")
      return
    }
    val sc = new SparkContext(args(0), "WordCount",
    System.getenv("SPARK_HOME"), Seq(System.getenv("SPARK_TEST_JAR")))
    val textFile = sc.textFile(args(1))
    val result = textFile.flatMap(line => line.split("\\s+"))
        .map(word => (word, 1)).reduceByKey(_ + _)
    result.saveAsTextFile(args(2))

2、导出jar包,这里我命名为WordCount.jar

3、运行

bin/spark-submit --master spark://master:7077 /home/zkpk/Desktop/WordCount.jar hdfs://master:9000/dedup_in hdfs://master:9000/dedup_out

先记录下,第三部还没执行,抽空试试

时间: 2024-11-05 18:46:39

Eclipse 编写的spark版WordCount运行在spark上的相关文章

spark 卡在spark context,运行出现spark Exception encountered while connecting to the server : javax.security.sasl.SaslException

原因: 使用root用户运行spark代码 解决方法:使用非管理员账户运行spark即可 [[email protected] bin]$ ./add-user.sh What type of user do you wish to add? a) Management User (mgmt-users.properties) b) Application User (application-users.properties) (a): b Enter the details of the ne

编写Spark的WordCount程序并提交到集群运行[含scala和java两个版本]

编写Spark的WordCount程序并提交到集群运行[含scala和java两个版本] 1. 开发环境 Jdk 1.7.0_72 Maven 3.2.1 Scala 2.10.6 Spark 1.6.2 Hadoop 2.6.4 IntelliJ IDEA 2016.1.1 2. 创建项目1) 新建Maven项目 2) 在pom文件中导入依赖pom.xml文件内容如下: <?xml version="1.0" encoding="UTF-8"?> &l

eclipse编写scala应用运行在spark集群上

代码 package spark_1 import org.apache.spark.SparkConf import org.apache.spark.SparkContext class WorkCountTest {//自定义函数 def jiSuan(){ //数据文件路径 var loadFile="hdfs://服务器ip:8020/tmp/dataTest/Z"; //初始化sparkContext var conf=new SparkConf(); conf.setAp

wordcount编写和提交集群运行问题解决方案

在win7测试Wordcount遇到的问题,解决过程 hadoop jar /root/wc1.jar cn.itcast.d3.hadoop.mr.WordCount hdfs://itcast:9000/words /out2 执行上面一句话时候报错: Unsupported major.minor version 52.0 这种错误的原因是jdk版本不一样导致的,我的win7是jdk1.8,hadoop是jdk1.7, 解决方案: 修改项目java compiler的方法: 在项目点右键-

[0012] Hadoop 版hello word mapreduce wordcount 运行(二)

目的: 学习Hadoop mapreduce 开发环境eclipse windows下的搭建 环境: Winows 7 64 eclipse,直接运行mapreduce 到服务器,结果输出到eclipse Hadoop2.6.4环境 准备: Hadoop2.6.4的源码包 相关: [0004] Hadoop 版hello word mapreduce wordcount 运行 [0011] windows 下 eclipse 开发 hdfs程序样例 (三) [0008] Windows 7 下

用Eclipse编写运行Java程序

1.选择一个空的文件夹,作为workspace工作空间,用来存放你以后用eclipse写的Java程序. 2.新建java项目:File->new->java project 3.完成创建后,在src上单击鼠标右键 new->class 4.这时候就可以在主窗体编写代码了 5.按run  as   java  application,即可运行. 用Eclipse编写运行Java程序,布布扣,bubuko.com

eclipse编写的java程序在dos环境下运行的写法

一般情况下如果环境变量没有设置好的话,在dos下运行程序会出现错误,一般都是:错误: 找不到或无法加载主类xxxxx.. 但是在环境变量正确的条件下在dos下运行eclipse编写的java程序也会出现上述的错误,通常是因为eclipse下自动加入了包,所以要把平时的: javac XXX.java java XXX.class改一下 变为: javac -d . XXX.java java 包名.XXX 如此即可

Win7上Spark WordCount运行过程及异常

WordCount.Scala代码如下: package com.husor.Spark /** * Created by huxiu on 2014/11/26. */ import org.apache.spark.{SparkContext, SparkConf} import org.apache.spark.SparkContext._ object SparkWordCount { def main(args: Array[String]) { println("Test is st

在idea上运行spark的wordcount

1.环境hadoop-2.6.0 spak2.1.1 scala-sdk-2.11.12 2.maven项目创建 3.pom <?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"