利用KNIME建立Spark Machine learning 模型 1:开发环境搭建

1、Knime Analytics 安装

从官方网站下载合适的版本 https://www.knime.com/downloads

将下载的安装包在安装路径解压 https://www.knime.com/installation-0

下图是knime启动后的欢迎页面

要与spark集×××互,需要在Knime中安装KNIME? Extension for Apache Spark。并在Hadoop集群边界节点或能够执行spark-submit的节点安装Spark Job Server。架构图如下:

2、KNIME? Extension for Apache Spark 安装

在KNIME Analytics 中点击File->Install KNIME extensions选中KNIME Big Data Extensions,点击Next安装。

3、SPARK JOB SERVER安装

以下步骤以Centos 6.5 + CDH 5.7 为例

3.1 下载spark job server

$ wget http://download.knime.org/store/3.5/spark-job-server-0.6.2.3-KNIME_cdh-5.7.tar.gz

3.2 login as root or su root

3.3 安装


# LINKNAME=spark-job-server

# useradd -d /opt/${LINKNAME}/ -M -r -s /bin/false spark-job-server

# su -l -c "hdfs dfs -mkdir -p /user/spark-job-server ; hdfs dfs -chown -R spark-job-server /user/spark-job-server" hdfs

# cp spark-job-server-0.6.2.3-KNIME_cdh-5.7.tar.gz /opt

# cd /opt

# tar -xvf spark-job-server-0.6.2.3-KNIME_cdh-5.7.tar.gz

# ln -s spark-job-server-0.6.2.3-KNIME_cdh-5.7 ${LINKNAME}

#  chown -R spark-job-server:spark-job-server ${LINKNAME} spark-job-server-0.6.2.3-KNIME_cdh-5.7

3.4  开机启动


# ln -s /opt/${LINKNAME}/spark-job-server-init.d /etc/init.d/${LINKNAME}

#chkconfig --levels 2345 ${LINKNAME} on

3.5 编辑environment.conf

设置master,例如

master = "spark://ifrebdplatform1:7077"

设置Default settings for Spark contexts: context-settings

3.6 编辑设置settings.sh

设置SPARK_HOME,本例默认正确,不做改变

设置LOG_DIR,如果不用默认设置的目录的话

3.7 根据喜好编辑log4j-server.properties

3.8 启动spark job server

/etc/init.d/${LINKNAME} start

3.9 在knime 添加create spark context 节点测试链接

右击create spark context 节点,点击Execute执行

右击create spark context 节点,点击Spark Context,查看结果

未完待续......

原文地址:http://blog.51cto.com/yinweiai/2114335

时间: 2024-08-25 00:39:21

利用KNIME建立Spark Machine learning 模型 1:开发环境搭建的相关文章

利用KNIME建立Spark Machine learning模型 2:泰坦尼克幸存预测

本文利用KNIME基于Spark决策树模型算法,通过对泰坦尼克的包含乘客及船员的特征属性的训练数据集进行训练,得出决策树幸存模型,并利用测试数据集对模型进行测试. 1.从Kaggle网站下载训练数据集和测试数据集 2.在KNIME创建新的Workflow,起名:TitanicKNIMESpark 3. 读取训练数据集 KNIME支持从Hadoop集群读取数据,本文为了简化流程直接从本地读取数据集. 在Node Repository的搜索框里输入CSV Reader,找到CSV Reader节点,

Spark+ECLIPSE+JAVA+MAVEN windows开发环境搭建及入门实例【附详细代码】

http://blog.csdn.net/xiefu5hh/article/details/51707529 Spark+ECLIPSE+JAVA+MAVEN windows开发环境搭建及入门实例[附详细代码] 标签: SparkECLIPSEJAVAMAVENwindows 2016-06-18 22:35 405人阅读 评论(0) 收藏 举报  分类: spark(5)  版权声明:本文为博主原创文章,未经博主允许不得转载. 目录(?)[+] 前言 本文旨在记录初学Spark时,根据官网快速

spark的eclispe的集成开发环境的搭建

默认已经安装了jdk和scala 下面说一下spark的eclispe的集成开发环境的搭建 eclipse4.2 update-site.zip spark-1.0.2-bin-hadoop2.tgz 解压spark-1.0.2-bin-hadoop2.tgz,得到lib文件夹下的jar包spark-assembly-1.1.1-hadoop2.3.0.jar 下面开始进行配置 打开exlipse,选择Help下的install new software,点击add,在弹出的对话框中Name填写

Windows下基于eclipse的Spark应用开发环境搭建

原创文章,转载请注明: 转载自www.cnblogs.com/tovin/p/3822985.html 一.软件下载 maven下载安装 :http://10.100.209.243/share/soft/apache-maven-3.2.1-bin.zip       jdk下载安装:          http://10.100.209.243/share/soft/jdk-7u60-windows-i586.exe(32位)         http://10.100.209.243/sh

Spark Idea Maven 开发环境搭建

一.安装jdk jdk版本最好是1.7以上,设置好环境变量,安装过程,略. 二.安装Maven 我选择的Maven版本是3.3.3,安装过程,略. 编辑Maven安装目录conf/settings.xml文件, <!-- 修改Maven 库存放目录--> <localRepository>D:\maven-repository\repository</localRepository> 三.安装Idea 安装过程,略. 四.创建Spark项目 1.新建一个Spark项目,

Spark入门三部曲之第二步Spark开发环境搭建

使用Scala+IntelliJ IDEA+Sbt搭建开发环境 提示 搭建开发环境常遇到的问题: 1.网络问题,导致sbt插件下载失败,解决方法,找到一个好的网络环境, 或者预先从我提供的网盘中下载jar(链接:http://pan.baidu.com/s/1qWFSTze 密码:lszc) 将下载的.ivy2压缩文件,解压后,放到你的用户目录下. 2.版本匹配问题,版本不匹配会遇到各种问题,解决方法,按照如下版本搭建, scala(2.10.3),sbt(0.13),sbt-assembly(

spark JAVA 开发环境搭建及远程调试

spark JAVA 开发环境搭建及远程调试 以后要在项目中使用Spark 用户昵称文本做一下聚类分析,找出一些违规的昵称信息.以前折腾过Hadoop,于是看了下Spark官网的文档以及 github 上 官方提供的examples,看完了之后决定动手跑一个文本聚类的demo,于是有了下文. 1. 环境介绍 本地开发环境是:IDEA2018.JDK8.windows 10.远程服务器 Ubuntu 16.04.3 LTS上安装了spark-2.3.1-bin-hadoop2.7 看spark官网

spark Intellij IDEA开发环境搭建

(1)创建Scala项目 File->new->Project,如下图 选择Scala 然后next 其中Project SDK指定安装的JDK,Scala SDK指定安装的Scala(这里使用的是IDEA自带的scala SDK),这里将项目名称命令为SparkWordCount,然后finish  在IDEA中开发应用程序时,常常需要通过一定的文件目录组织进行源码编写,例如源文件目录.测试源文件目录,下面演示在Intellij IDEA的src目录下创建main/scala源文件目录. 直

Android开发环境搭建&amp;第一个Android工程建立

我本人对安装开发环境花费的时间比较注意,一般不会很久,能满足自己当前眼下用就可以了,而不会把所有的资源全部配置上去,这样我会感觉十分浪费时间,然后全部搭建还会出现这样那样的不知所云的问题,看似一个一个解决掉对自己能力有一定的提升,然后对我来说这并没有什么卵用,我用这段时间,基本可以做到Android入门了,而有些人还在琢磨这eclipse怎么配置sdk路径的问题,百度谷歌了一大堆.下面是如何快速搭建Android开发环境,并写出第一个Android应用程序,我从来不写hello world,因为