StreamSets学习系列之StreamSets的Core Tarball方式安装(图文详解)

    不多说,直接上干货!

  前期博客

核心安装包(Core Tarball)

该安装包包含核心的SDC软件,使该软件具有最小的软件连接器集合,当然你可以手动下载额外的节点(Stage)

  ①  通过Streamsets的UI进行安装,UI上点击的位置为:在该软件界面的右边(图标是一个礼物盒子。。。)。

  ②  也可以通过使用CLI进行安装,安装过程如下所示:

第一步、下载该【核心安装包】,比如版本为:streamsets-datacollector-core-3.3.0.tgz

第二步、解压该安装包

[[email protected] app]$ tar -zxvf streamsets-datacollector-core-3.3.0.tgz 

[[email protected] streamsets-datacollector-3.3.0]$ ./bin/streamsets dc
Java 1.8 detected; adding $SDC_JAVA8_OPTS of "-XX:+UseConcMarkSweepGC -XX:+UseParNewGC -Djdk.nio.maxCachedBufferSize=262144" to $SDC_JAVA_OPTS
Configuration of maximum open file limit is too low: 1024 (expected at least 32768). Please consult https://goo.gl/LgvGFl
[[email protected] streamsets-datacollector-3.3.0]$ 

  注:在这个启动的过程中会出现启动报错的情况,错误提示是:最大的文件数为1024,而streamsets需要更大的文件数,因此就要必要的设置一下环境了。

设置方式有两种:

  (1)修改配置文件,然后重启centos永久生效,

  (2)通过一个命令进行生效:

ulimit -n 65535

Browse to http://<system-ip>:18630/

The default username and password are “admin” and “admin”.

[[email protected] streamsets-datacollector-3.3.0]$ pwd
/home/hadoop/app/streamsets-datacollector-3.3.0
[[email protected] streamsets-datacollector-3.3.0]$ ./bin/streamsets dc
Java 1.8 detected; adding $SDC_JAVA8_OPTS of "-XX:+UseConcMarkSweepGC -XX:+UseParNewGC -Djdk.nio.maxCachedBufferSize=262144" to $SDC_JAVA_OPTS
Logging initialized @6514ms to org.eclipse.jetty.util.log.Slf4jLog
Running on URI : ‘http://master:18630‘

  通过这种方式:你就可以看到正真的streamsets真面目了。。。。后面我们看看他真面目里面的一些细节。。。。这个工具主要进行数据移动及数据清洗有很大的帮助。

  或者

[[email protected] streamsets-datacollector-3.3.0]$ pwd
/home/hadoop/app/streamsets-datacollector-3.3.0
[[email protected] streamsets-datacollector-3.3.0]$ nohup /home/hadoop/app/streamsets-datacollector-3.3.0/bin/streamsets dc &
[1] 2881
[[email protected] streamsets-da

  

    也许,你在启动过程中,会出现

StreamSets学习系列之启动StreamSets时出现Caused by: java.security.AccessControlException: access denied ("java.util.PropertyPermission" "test.to.ensure.security.is.configured.correctly" "read")错误的解决办法

安装成功的后续步骤(建议去做):

  1、添加sdc用户的进程操作文件描述符的并行度

[[email protected] streamsets-datacollector-3.3.0]# vim /etc/security/limits.conf

sdc soft nofile     32768
sdc hard nofile     32768

  2、vim /etc/profile

[[email protected] streamsets-datacollector-3.3.0]# vim /etc/profile

[[email protected] streamsets-datacollector-3.3.0]# source /etc/profile

  3、创建文件目录,用于放日志信息

[[email protected] data]# su hadoop
[[email protected] data]$ pwd
/data
[[email protected] data]$ cd /home/hadoop/app/streamsets-datacollector-3.3.0/
[[email protected] streamsets-datacollector-3.3.0]$ pw
bash: pw: command not found
[[email protected] streamsets-datacollector-3.3.0]$ pwd
/home/hadoop/app/streamsets-datacollector-3.3.0
[[email protected] streamsets-datacollector-3.3.0]$
[[email protected] streamsets-datacollector-3.3.0]$ pwd
/home/hadoop/app/streamsets-datacollector-3.3.0
[[email protected] streamsets-datacollector-3.3.0]$ cd /data/
[[email protected] data]$ pwd
/data
[[email protected] data]$ ll
total 4
drwxr-xr-x 3 hadoop hadoop 4096 Jul 27  2017 kafka-log
[[email protected] data]$ mkdir -p /data/streamsets/sdc-stand-alone
[[email protected] data]$ mkdir -p /data/streamsets/sdc-stand-alone-dirs/
[[email protected] data]$ mkdir -p /data/streamsets/sdc-stand-alone-dirs/configuration
[[email protected] data]$ mkdir -p /data/streamsets/sdc-stand-alone-dirs/data
[[email protected] data]$ mkdir -p /data/streamsets/sdc-stand-alone-dirs/log
[[email protected] data]$ mkdir -p /data/streamsets/sdc-stand-alone-dirs/resource
[[email protected] data]$ 

  修改配置文件

# directory where the data collector will store pipelines and their runtime information
#
#export SDC_DATA=/var/lib/sdc

# directory where the data collector write its logs
#
#export SDC_LOG=/var/log/sdc

# directory where the data collector will read its configuration
#
#export SDC_CONF=/etc/sdc

# directory where the data collector will read pipeline resource files from
#
#export SDC_RESOURCES=/var/lib/sdc-resources

  改为

# directory where the data collector will store pipelines and their runtime information
#
export SDC_DATA=/data/streamsets/sdc-stand-alone-dirs/data

# directory where the data collector write its logs
#
export SDC_LOG=/data/streamsets/sdc-stand-alone-dirs/log

# directory where the data collector will read its configuration
#
export SDC_CONF=/data/streamsets/sdc-stand-alone-dirs/configuration

# directory where the data collector will read pipeline resource files from
#
export SDC_RESOURCES=/data/streamsets/sdc-stand-alone-dirs/resource

欢迎大家,加入我的微信公众号:大数据躺过的坑        人工智能躺过的坑

 

同时,大家可以关注我的个人博客

   http://www.cnblogs.com/zlslch/   和     http://www.cnblogs.com/lchzls/      http://www.cnblogs.com/sunnyDream/   

   详情请见:http://www.cnblogs.com/zlslch/p/7473861.html

  人生苦短,我愿分享。本公众号将秉持活到老学到老学习无休止的交流分享开源精神,汇聚于互联网和个人学习工作的精华干货知识,一切来于互联网,反馈回互联网。
  目前研究领域:大数据、机器学习、深度学习、人工智能、数据挖掘、数据分析。 语言涉及:Java、Scala、Python、Shell、Linux等 。同时还涉及平常所使用的手机、电脑和互联网上的使用技巧、问题和实用软件。 只要你一直关注和呆在群里,每天必须有收获

对应本平台的讨论和答疑QQ群:大数据和人工智能躺过的坑(总群)(161156071) 

原文地址:https://www.cnblogs.com/zlslch/p/9375053.html

时间: 2024-08-27 21:11:05

StreamSets学习系列之StreamSets的Core Tarball方式安装(图文详解)的相关文章

TortoiseGit学习系列之TortoiseGit基本操作拉取项目(图文详解)

前面博客 TortoiseGit学习系列之TortoiseGit基本操作修改提交项目(图文详解) TortoiseGit学习系列之TortoiseGit基本操作将提交到本地的项目推送到在线仓库(图文详解) TortoiseGit基本操作拉取项目 如果本地的项目没有在线仓库的新,则需要执行拉取操作(Pull ...). 在本地项目的空白处点击鼠标右键, 选择 TortoiseGit --> 拉取... 或: Pull.... 弹出拉取(pull)对话框: [如果拉取有BUG,请不要使用 rebas

FineBI学习系列之FineBI与HBase数据连接(图文详解)

不多说,直接上干货! 这是来自FineBI官网提供的帮助文档 http://help.finebi.com/http://help.finebi.com/doc-view-584.html 目录: 1.描述 2.操作 3.注意事项 1.描述 Hbase作为大数据平台的重要组成部分,在数据存储方面起到了至关重要的作用,因此BI连接Hbase也是必不可少的功能之一.FineBI提供的方法是通过phoenix连接hbase,下面我们将详细介绍如何进行连接. 2.操作 2.1 配置信息   驱动 URL

FineBI学习系列之FineBI与Spark数据连接(图文详解)

不多说,直接上干货! 这是来自FineBI官网提供的帮助文档 http://help.finebi.com/http://help.finebi.com/doc-view-581.html 目录: 1.描述 2.操作 3.注意事项 1.描述 Spark是一种通用的大数据快速处理引擎.Spark使用Spark RDD. Spark SQL. Spark Streaming. MLlib. GraphX成功解决了大数据领域中离线批处理.交互式查询.实时流计算.机器学习与图计算等最重要的任务和问题.S

TortoiseGit学习系列之TortoiseGit基本操作修改提交项目(图文详解)

前面博客 TortoiseGit基本操作修改提交项目 项目克隆完成后(可以将克隆 clone 理解为 下载,检出 checkout 操作).修改本地项目中的某些文件,如 将 README.md 修改为如下内容: LispGentleIntro =============== Lisp-符号计算入门指引翻译 <a href="http://cncounter.duapp.com/">天朝计数器</a> 还可以试试增加一些文件. 如 files.txt . 然后在本

StreamSets学习系列之StreamSets的集群安装(图文详解)

不多说,直接上干货! 若是集群安装 需要在对应节点执行相同的操作. 见 见 StreamSets学习系列之StreamSets的Core Tarball方式安装(图文详解) 欢迎大家,加入我的微信公众号:大数据躺过的坑        人工智能躺过的坑   同时,大家可以关注我的个人博客:    http://www.cnblogs.com/zlslch/   和     http://www.cnblogs.com/lchzls/      http://www.cnblogs.com/sunn

StreamSets学习系列之StreamSets的Create New Pipeline(图文详解)

不多说,直接上干货! 前期博客 StreamSets学习系列之StreamSets的Core Tarball方式安装(图文详解) 欢迎大家,加入我的微信公众号:大数据躺过的坑        人工智能躺过的坑   同时,大家可以关注我的个人博客:    http://www.cnblogs.com/zlslch/   和     http://www.cnblogs.com/lchzls/      http://www.cnblogs.com/sunnyDream/       详情请见:htt

StreamSets学习系列之StreamSets是什么?

不多说,直接上干货! StreamSets是一个侧重数据集成.数据加工流程构建的平台,也是一个开源的产品.通过StreamSets,用户可以方便的接入不同的数据源,并且完成数据加工流程的构建.SteamSets有可视化的数据流构建工具,并且能够对运行态的数据应用进行监控.相对于CDAP,StreamSets更侧重于数据的接入和数据流的构建.监控和管理 StreamSets的官网 https://streamsets.com/ https://streamsets.com/products/sdc

TortoiseGit学习系列之TortoiseGit基本操作将提交到本地的项目推送到在线仓库(图文详解)

前面博客 TortoiseGit学习系列之TortoiseGit基本操作修改提交项目(图文详解) TortoiseGit基本操作将提交到本地的项目推送到在线仓库 推送是提交的下一步操作. 在本地项目的空白处点击鼠标右键, 选择 TortoiseGit --> 推送... 或: Push.... 弹出推送(push)对话框: 一般保持默认,点击 "确定" 按钮. 然后弹出推送进度界面,可能要求你输入用户名: 确定OK,然后要求输入密码: 密码输入正确后,OK,显示推送成功界面:  

大数据学习系列之五 ----- Hive整合HBase图文详解

引言 在上一篇 大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机) 和之前的大数据学习系列之二 ----- HBase环境搭建(单机) 中成功搭建了Hive和HBase的环境,并进行了相应的测试.本文主要讲的是如何将Hive和HBase进行整合. Hive和HBase的通信意图 Hive与HBase整合的实现是利用两者本身对外的API接口互相通信来完成的,其具体工作交由Hive的lib目录中的hive-hbase-handler-*.jar工具类来实现,通信原理如下图