IDEA中环境配置和使用

pom.xml文件配置

 1 <!-- 声明公有的属性 -->
 2 <properties>
 3         <maven.compiler.source>1.8</maven.compiler.source>
 4         <maven.compiler.target>1.8</maven.compiler.target>
 5         <encoding>UTF-8</encoding>
 6         <scala.version>2.11.8</scala.version>
 7         <spark.version>2.2.0</spark.version>
 8         <hadoop.version>2.7.1</hadoop.version>
 9         <scala.compat.version>2.11</scala.compat.version>
10     </properties>
11 <!-- 声明并引入公有的依赖 -->
12     <dependencies>
13         <dependency>
14             <groupId>org.scala-lang</groupId>
15             <artifactId>scala-library</artifactId>
16             <version>${scala.version}</version>
17         </dependency>
18       <dependency>
19         <groupId>org.apache.spark</groupId>
20         <artifactId>spark-core_2.11</artifactId>
21         <version>${spark.version}</version>
22     </dependency>
23         <dependency>
24             <groupId>org.apache.hadoop</groupId>
25             <artifactId>hadoop-client</artifactId>
26             <version>${hadoop.version}</version>
27         </dependency>
28     </dependencies>
29
30 <!-- 配置构建信息 -->
31     <build>
32         <!-- 资源文件夹 -->
33         <sourceDirectory>src/main/scala</sourceDirectory>
34         <!-- 声明并引入构建的插件 -->
35         <plugins>
36              <!-- 用于编译Scala代码到class -->
37             <plugin>
38                 <groupId>net.alchim31.maven</groupId>
39                 <artifactId>scala-maven-plugin</artifactId>
40                 <version>3.2.2</version>
41                 <executions>
42                     <execution>
43                         <goals>
44                             <goal>compile</goal>
45                             <goal>testCompile</goal>
46                         </goals>
47                         <configuration>
48                             <args>
49                                 <arg>-dependencyfile</arg>
50                                 <arg>${project.build.directory}/.scala_dependencies</arg>
51                             </args>
52                         </configuration>
53                     </execution>
54                 </executions>
55             </plugin>
56             <plugin>
57                 <!-- 程序打包 -->
58                 <groupId>org.apache.maven.plugins</groupId>
59                 <artifactId>maven-shade-plugin</artifactId>
60                 <version>2.4.3</version>
61                 <executions>
62                     <execution>
63                         <phase>package</phase>
64                         <goals>
65                             <goal>shade</goal>
66                         </goals>
67                         <configuration>
68                              <!-- 过滤掉以下文件,不打包 :解决包重复引用导致的打包错误-->
69                             <filters>
70                                 <filter><artifact>*:*</artifact>
71                                     <excludes>
72                                         <exclude>META-INF/*.SF</exclude>
73                                         <exclude>META-INF/*.DSA</exclude>
74                                         <exclude>META-INF/*.RSA</exclude>
75                                     </excludes>
76                                 </filter>
77                             </filters>
78                             <transformers>
79                                 <!-- 打成可执行的jar包 的主方法入口-->
80                                 <transformer  implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer">
81                                     <mainClass></mainClass>
82                                 </transformer>
83                             </transformers>
84                         </configuration>
85                     </execution>
86                 </executions>
87             </plugin>
88         </plugins>
89     </build>

第一个WordCount

 1 package SparkCore_01
 2
 3 import org.apache.spark.rdd.RDD
 4 import org.apache.spark.{SparkConf, SparkContext}
 5
 6 /**
 7   * 第一个Spark程序
 8   */
 9 object SparkWordCount {
10   //Spark程序都需要使用main
11   def main(args: Array[String]): Unit = {
12       //0.构建系统环境变量,为了SparkContext加在环境变量所使用
13       /*
14       三个核心方法
15        set(key,value) --> 主要应对的是 环境变量设置  key 环境变量名  value 是具体值
16        setAppName(name) --> 设置程序运行的名称
17        setMaster(执行方式),如果需要运行本地环境,那么就需要配置SetMaster这个值
18        "local"  --> 代表本地模式,相当于启用一个线程来模拟Spark运行
19        "local[数值]"  --> 代表本地模式, 根据数值来决定启用多少个线程来模拟spark运行
20        ps:数值不能大于当前cpu 核心数
21        "local[*]"  --> 代表本地模式 * 相当于是系统空闲多少线程就用多少线程来执行spark程序
22        */
23       val conf =new SparkConf().setAppName("SparkWordCount").setMaster("local")
24      //1.先构建SparkContext对象,需要对SparkContext对象进行环境配置即将conf对象传入到SparkContext中
25       val sc = new SparkContext(conf)
26
27     //Spark对数据的处理
28   //1.读取文件内容,参数是文件路径(多用于读取txt或log文件)
29     val lines: RDD[String] = sc.textFile("dir/SparkCore_01/File.txt")
30     //2.对文件中数据进行切分处理
31     val words: RDD[String] = lines.flatMap(_.split(" "))
32     //3.对单词进行统计之前,需要对单词的个数进行计数
33     val tuples: RDD[(String, Int)] = words.map((_,1))
34     //Spark中提供了一个根据key计算value的算子(这个算子是你使用最广泛一个算子),相同key为一组计算一次value的值
35     val sumed: RDD[(String, Int)] = tuples.reduceByKey(_+_)
36
37     //println(sumed.collect().toList)
38
39    sc.stop()//关闭Sparkcontext
40
41
42     //提交集群版本(修改位置):
43     //sc.textFile(args(0)) //获取外部输入读取数据路径
44     //将数据文件存储到集群(也可以存储在本地)没有返回值
45      // sumed.saveAsTextFile(args(1)) // 获取外部输入的存储路径 ,不要打印语句
46   }
47 }

程序打包提交集群

将jar包上传到对应节点,然后在Spark安装目录下bin目录下执行以下操作
./spark-submit \
> --class SparkCore_01.SparkWordCount\
> --master spark://hadoop01:7077 \
> --executor-memory 512m \
> --total-executor-cores 2 \
> /root/Spark_1905-1.0-SNAPSHOT.jar hdfs://hadoop01:8020/word.txt hdfs://hadoop01:8020/out2
ps: jar包所在路径 hdfs集群读取文件 写入到hdfs集群中

去掉打印日志

log4j.properties

 1 # contributor license agreements.  See the NOTICE file distributed with
 2 # this work for additional information regarding copyright ownership.
 3 # The ASF licenses this file to You under the Apache License, Version 2.0
 4 # (the "License"); you may not use this file except in compliance with
 5 # the License.  You may obtain a copy of the License at
 6 #
 7 #    http://www.apache.org/licenses/LICENSE-2.0
 8 #
 9 # Unless required by applicable law or agreed to in writing, software
10 # distributed under the License is distributed on an "AS IS" BASIS,
11 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
12 # See the License for the specific language governing permissions and
13 # limitations under the License.
14 #
15 # Set everything to be logged to the console
16 # 修改此处更改显示信息级别
17 log4j.rootCategory=ERROR, console
18 log4j.appender.console=org.apache.log4j.ConsoleAppender
19 log4j.appender.console.target=System.err
20 log4j.appender.console.layout=org.apache.log4j.PatternLayout
21 log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n

原文地址:https://www.cnblogs.com/yumengfei/p/12028338.html

时间: 2024-10-12 05:05:21

IDEA中环境配置和使用的相关文章

MV3D中环境配置,解决安装python shapely时缺少 geos库的问题

MV3D 环境配置需要安装 shapely库在pip install shapely 的时候报错 发现没有geos库 先安装VS 2013 然后出现打开CMD下载 geos库下载geos-3.5.0,放在d:\geos350中下载网站:http://trac.osgeo.org/geos/ atuogen.batnmake /f makefile.vc之后在src目录下生成将文件拷贝到system32目录然后安装 pip install shapely 请注意 你的系统是64位的 就要用 vcv

编译XSIP过程中环境配置

昨天在编译XSip的过程中,有很多问题首先是出现了很多的error C1083. 然后到XSIP自己的文件夹中,也找不到对应的.h文件. 上网查阅后发现应该是缺少了对应的头文件的路径. 于是到可以编译的电脑上查看,发现确实存在不一样的地方 这是可以正常编译包含的头文件和库文件路径 添加后编译结果 然后根据error C2065: 'PMIB_ICMP_EX' 百度 感觉应该调用了这个东西 Iphlpapi.h 然后发现Iphlpapi.h, IPRTRMIB.H, IPTYPES.H, IPEX

PHP与apache环境配置

最近想了解一些网页后台的东西,在看Luke Welling,laura Thomson的<php与mysql web开发>,书中环境配置的部分很庞杂,网上的各种教程也很乱,搞了一下午终于成功了!在这里记录一下. 一.简介 首先介绍一下PHP:PHP是一种服务器端脚本语言,专门为web设计,在一个html页面中,可以嵌入PHP代码,这些代码会在每次页面被访问时执行.实现了动态网页的执行.你可能会问,javascript不也能将html的静态网页变成动态交互吗?两者的作用不同,php在每次刷新网页

spring boot 环境配置(profile)切换

Spring Boot 集成教程 Spring Boot 介绍 Spring Boot 开发环境搭建(Eclipse) Spring Boot Hello World (restful接口)例子 spring boot 连接Mysql spring boot配置druid连接池连接mysql spring boot集成mybatis(1) spring boot集成mybatis(2) – 使用pagehelper实现分页 spring boot集成mybatis(3) – mybatis ge

(转)VC6.0中OpenGL开发环境配置

首先简单介绍一下OpenGL: OpenGL作为当前主流的图形API之一,它在一些场合具有比DirectX更优越的特性.       OpenGL官方网站(英文)    http://www.opengl.org 然后设置编程的一些环境,及其安装必备文件的步骤如下: 第一步:选择一个编译环境 现在Windows系统的主流编译环境有Visual Studio,Broland C++ Builder,Dev-C++等,它们都是支持OpenGL的.但这里我们选择VC++ 6.0作为学习OpenGL的环

在CentOS6.4中安装配置LAMP环境的详细步骤

原文:在CentOS6.4中安装配置LAMP环境的详细步骤 本文详细介绍了CentOS6.4系统中安装LAMP服务并对其进行配置的过程,即安装Apache+PHP+Mysql,参照了网上大神的设置,其他Linux发行系统可以参考~ 在本文中部分命令操作需要root权限,输入‘su -’命令后输入密码即可切换root身份. 一.修改设置对安装做准备 1. 防火墙设置 设置/etc/sysconfig/iptables文件允许80端口和3306端口.因为80端口是http协议所使用的端口,如果防火墙

Maven(一)——如何在Windows操作系统中安装配置Maven环境

今天难得的周末,借此难的机会总结一下关于maven的一些操作: 1.在安装maven之前要确认计算机已经安装并配置了JDK: 2.下载maven: maven-3.0.3:http://download.csdn.net/detail/wangshuxuncom/7367413 maven-3.0.5:http://download.csdn.net/detail/wangshuxuncom/7551799 说明:上述资源均免费下载 这里选择maven-3.0.3来演示安装.将maven-3.0

如何在pycharm中使用配置好的virtualenv环境

http://blog.csdn.net/hy245120020/article/details/50776197 如何在pycharm中使用配置好的virtualenv环境 打开setting添加本地python环境 选择刚刚创建的虚拟环境 建立成功,测试

Linux中环境变量文件及配置

一.环境变量文件介绍 转自:http://blog.csdn.net/cscmaker/article/details/7261921 Linux中环境变量包括系统级和用户级,系统级的环境变量是每个登录到系统的用户都要读取的系统变量,而用户级的环境变量则是该用户使用系统时加载的环境变量.所以管理环境变量的文件也分为系统级和用户级的,下面贴一个网上找到的讲的比较明白的文件介绍(略作修改)[1]: 1.系统级:(1)/etc/profile:该文件是用户登录时,操作系统定制用户环境时使用的第一个文件