Tachyon基本使用10-----Running Shark on Tachyon

一、安装Hive

1.下载并解压Hive

[[email protected] soft]# tar -zxf apache-hive-0.13.1-bin.tar.gz -C /usr/local/
[[email protected] soft]# ln -s /usr/local/apache-hive-0.13.1-bin/ /usr/local/hive
[[email protected] soft]#

2.配置hive环境变量

[[email protected] soft]# cat /etc/profile.d/hive.sh
HIVE_HOME=/usr/local/hive
PATH=$HIVE_HOME/bin:$PATH
[[email protected] soft]# . /etc/profile.d/hive.sh
[[email protected] soft]#

3.安装mysql数据库

[[email protected] soft]# yum -y install mysql-server
[[email protected] soft]#chkconfig mysqld on
[[email protected] soft]#service mysqld restart

4.配置mysql权限

mysql> create
database hive;
Query OK, 1 row affected
(0.00 sec)
 
mysql> grant all on
*.* to ‘hive‘@‘%‘ identified by ‘123456‘;
Query OK, 0 rows
affected (0.00 sec)
 
mysql>

5.COPY配置文件

[[email protected] conf]# pwd
/usr/local/hive/conf
[[email protected] conf]#  cp hive-env.sh.template hive-env.sh
[[email protected] conf]# cphive-default.xml.template hive-site.xml
[[email protected] conf]# cphive-exec-log4j.properties.template hive-exec-log4j.properties
[[email protected] conf]# cphive-log4j.properties.template hive-log4j.properties
[[email protected] conf]#

6.配置hive-env.sh

[[email protected] conf]# pwd
/usr/local/hive/conf
[[email protected] conf]# cat
hive-env.sh |grep -v ^$ |grep -v ^#
HADOOP_HOME=/usr/local/hadoop
[[email protected] conf]#

7.配置hive-site.sh

[[email protected] conf]#  pwd
/usr/local/bigdata/hive/conf
[[email protected] conf]#  cat hive-site.xml |grep -v ^$|grep -v ^#
<?xmlversion="1.0"?>
<?xml-stylesheettype="text/xsl" href="configuration.xsl"?>
<configuration>
   <property>
     <name>javax.jdo.option.ConnectionURL</name>
      <value>jdbc:mysql://node1:3306/hive?createDatabaseIfNotExist=true</value>
      <description>JDBC connect stringfor a JDBC metastore</description>
   </property>
   <property>
     <name>javax.jdo.option.ConnectionDriverName</name>
      <value>com.mysql.jdbc.Driver</value>
      <description>Driver class name fora JDBC metastore</description>
   </property>
   <property>
     <name>javax.jdo.option.ConnectionUserName</name>
      <value>hive</value>
      <description>username to useagainst metastore database</description>
   </property>
   <property>
     <name>javax.jdo.option.ConnectionPassword</name>
      <value>123456</value>
      <description>password to useagainst metastore database</description>
   </property>
</configuration>
[[email protected] conf]#

8.复制jdbc驱动

[[email protected] soft]# cp mysql-connector-java-5.1.22-bin.jar /usr/local/hive/lib/
[[email protected] soft]#

二、安装shark

1.下载并加压shark

[[email protected] soft]# tar -zxf shark-0.9.1-bin-hadoop2.tgz -C /usr/local/ 
[[email protected] soft]# ln -s /usr/local/shark-0.9.1-bin-hadoop2/ /usr/local/shark
[[email protected] soft]#

2.配置shark环境变量

[[email protected] soft]# cat /etc/profile.d/shark.sh
SHARK_HOME=/usr/local/shark
PATH=$SHARK_HOME/bin:$PATH
[[email protected] soft]# . /etc/profile.d/shark.sh
[[email protected] soft]#

3.配置shark-env.sh

[[email protected] conf]# pwd
/usr/local/shark/conf
[[email protected] conf]# cat shark-env.sh|grep -v ^$|grep -v ^#
export JAVA_HOME=/usr/java/latest
export SPARK_MEM=128m
export SHARK_MASTER_MEM=128m
export HADOOP_HOME="/usr/local/hadoop"
export HIVE_HOME="/usr/local/hive"
export HIVE_CONF_DIR="/usr/local/hive/conf"
export SCALA_HOME="/usr/local/scala"
export MASTER="spark://192.168.1.1:7077"
export SPARK_HOME="/usr/local/spark"
SPARK_JAVA_OPTS=" -Dspark.local.dir=/tmp "
SPARK_JAVA_OPTS+="-Dspark.kryoserializer.buffer.mb=10"
SPARK_JAVA_OPTS+="-verbose:gc -XX:-PrintGCDetails -XX:+PrintGCTimeStamps "
export SPARK_JAVA_OPTS
[[email protected] conf]#

4.复制hive配置到所有slaves

[[email protected] ~]# scp -r/usr/local/apache-hive-0.13.1-bin/ node2:/usr/local/
[[email protected] ~]# scp -r/usr/local/apache-hive-0.13.1-bin/ node3:/usr/local/
[[email protected] ~]# sshnode2 ln -s /usr/local/apache-hive-0.13.1-bin/ /usr/local/hive
[[email protected] ~]# sshnode3 ln -s /usr/local/apache-hive-0.13.1-bin/ /usr/local/hive
[[email protected] ~]# scp/etc/profile.d/hive.sh node2:/etc/profile.d/
hive.sh                                      100%   52     0.1KB/s  00:00    
[[email protected] ~]# scp/etc/profile.d/hive.sh node3:/etc/profile.d/
hive.sh                                      100%   52     0.1KB/s  00:00    
[[email protected] ~]#

5.复制Shark目录到所有的slaves

[[email protected] ~]# scp -r/usr/local/shark-0.9.1-bin-hadoop2/ node2:/usr/local/
[ro[email protected] ~]# scp -r/usr/local/shark-0.9.1-bin-hadoop2/ node3:/usr/local/
[[email protected] ~]# sshnode2 ln -s /usr/local/shark-0.9.1-bin-hadoop2/ /usr/local/shark
[[email protected] ~]# sshnode3 ln -s /usr/local/shark-0.9.1-bin-hadoop2/ /usr/local/shark
[[email protected] ~]# scp/etc/profile.d/shark.sh node2:/etc/profile.d/
shark.sh                                      100%   55     0.1KB/s  00:00    
[[email protected] ~]# scp/etc/profile.d/shark.sh node3:/etc/profile.d/
shark.sh                                      100%   55    0.1KB/s   00:00    
[[email protected] ~]#

6.替换 jar 包 “hive-exec-0.11.0-shark-0.9.1.jar”

cd $SHARK_HOME/lib_managed/jars/edu.berkeley.cs.shark/hive-exec
unziphive-exec-0.11.0-shark-0.9.1.jar
rm -fcom/google/protobuf/*
rm  hive-exec-0.11.0-shark-0.9.1.jar
zip -rhive-exec-0.11.0-shark-0.9.1.jar *
rm -rf comhive-exec-log4j.properties javaewah/ javax/ javolution/ META-INF/ org/

三、Shark整合Tachyon

1.修改shark-env.sh添加如下2行

export TACHYON_MASTER="tachyon://node1:19998"
export TACHYON_WAREHOUSE_PATH=/sharktables

2.同步修改的配置到其它节点

[[email protected] conf]# scpshark-env.sh node2:/usr/local/shark/conf/
shark-env.sh                                  100%2253     2.2KB/s   00:00   
[[email protected] conf]# scpshark-env.sh node3:/usr/local/shark/conf/
shark-env.sh                                  100%2253     2.2KB/s   00:00   
[[email protected] conf]#

3.启动shark

[[email protected] conf]# shark
shark> show tables;
OK
ssq
Time taken: 0.841
seconds
shark>

4. 指定TBLPROPERTIES(“shark.cache” = “tachyon”)将表缓存到tachyon

shark> create table test1 TBLPROPERTIES("shark.cache" = "tachyon") as select * from ssq;

5. 指定表的名称与_tachyon结尾将表缓存到Tachyon

shark> CREATE TABLEtest_tachyon AS SELECT * FROM ssq;

时间： 2024-08-06 11:56:44

Tachyon基本使用10-----Running Shark on Tachyon的相关文章

Spark入门实战系列--10.分布式内存文件系统Tachyon介绍及安装部署

1 Tachyon介绍 1.1 Tachyon简介随着实时计算的需求日益增多,分布式内存计算也持续升温,怎样将海量数据近乎实时地处理,或者说怎样把离线批处理的速度再提升到一个新的高度是当前研究的重点.近年来,内存的吞吐量成指数倍增长,而磁盘的吞吐量增长缓慢,那么将原有计算框架中文件落地磁盘替换为文件落地内存,也是提高效率的优化点. 目前已经使用基于内存计算的分布式计算框架有:Spark.Impala及SAP的HANA等.但是其中不乏一些还是有文件落地磁盘的操作,如果能让这些落地磁盘的操作全部落

Tachyon在Spark中的作用（Tachyon: Reliable, Memory Speed Storage for Cluster Computing Frameworks 论文阅读翻译）

摘要: Tachyon是一种分布式文件系统,能够借助集群计算框架使得数据以内存的速度进行共享.当今的缓存技术优化了read过程,可是,write过程由于须要容错机制,就须要通过网络或者是磁盘进行复制操作.Tachyon通过将"血统"技术引入到存储层进而消除了这个瓶颈.创建一个长期的以"血统机制"为基础的存储系统的关键挑战是失败情况发生的时候及时地进行数据恢复.Tachyon通过引入一种检查点的算法来解决问题,这样的方法保证了恢复过程的有限开销以及通过资源调度器下进行

Tachyon基本使用08-----Running Hadoop MapReduce on Tachyon

一.修改Hadoop配置文件 1.修改core-site.xml文件添加如下属性,让MapReduce作业可以使用Tachyon文件系统作为输入和输出 <property> <name>fs.tachyon.impl</name> <value>tachyon.hadoop.TFS</value> </property> 2.配置hadoop-env.sh 在hadoop-env.sh文件开头添加Tachyon客户端jar包路径

《SPARK/TACHYON:基于内存的分布式存储系统》－史鸣飞（英特尔亚太研发有限公司大数据软件部工程师）

史鸣飞:大家好,我是叫史鸣飞,来自英特尔公司,接下来我向大家介绍一下Tachyon.我事先想了解一下大家有没有听说过Tachyon,或者是对Tachyon有没有一些了解?对Spark呢? 首先做一个介绍,我来自英特尔的大数据团队,我们团队主要是致力于各种大数据的软件开发以及这些软件在工业界的推广和应用,我所在的团队主要负责Spark及其软件栈的开发和推广.我们是国内最早参加Spark开发和推广的团队,我们在2012年就加入了Spark社区.在Spark和相关的项目中间投入了大量的人力,长期以来我

Tachyon 0.7.1伪分布式集群安装与测试

Tachyon是一个高容错的分布式文件系统,允许文件以内存的速度在集群框架中进行可靠的共享,就像Spark和 MapReduce那样.通过利用信息继承,内存侵入,Tachyon获得了高性能.Tachyon工作集文件缓存在内存中,并且让不同的 Jobs/Queries以及框架都能内存的速度来访问缓存文件.因此,Tachyon可以减少那些需要经常使用的数据集通过访问磁盘来获得的次数. 源码下载源码地址:https://github.com/amplab/tachyon git clone http

Tachyon基本使用02-----Tachyon本地模式安装

一.配置系统环境 1.清除默认防火墙规则 # service iptables save iptables:将防火墙规则保存到 /etc/sysconfig/iptables: [确定] 2.关闭Selinux # cat /etc/sysconfig/selinux |grep SELINUX|grep -v ^# SELINUX=disabled SELINUXTYPE=targeted # 3.配置ip地址 # cat /etc/sysconfig/network-script

Tachyon基本使用05-----Tachyon集群模式安装

一.环境配置 1.集群环境主机名 IP 角色 Node1 192.168.1.1 TachyonMaster.TachyonWorker Node2 192.168.1.2 TachyonWorker Node3 192.168.1.3 TachyonWorker 2.每个节点上清空

Tachyon：Spark生态系统中的分布式内存文件系统

转自: http://www.csdn.net/article/2015-06-25/2825056 摘要:Tachyon把内存存储的功能从Spark中分离出来, 使Spark可以更专注计算的本身, 以求通过更细的分工达到更高的执行效率. Tachyon是Spark生态系统内快速崛起的一个新项目. 本质上, Tachyon是个分布式的内存文件系统, 它在减轻Spark内存压力的同时,也赋予了Spark内存快速大量数据读写的能力.Tachyon把内存存储的功能从Spark中分离出来, 使Spar

Tachyon Cluster: 基于Zookeeper的Master High Availability（HA）高可用配置实现

1.Tachyon简介 Tachyon是一个高容错的分布式文件系统,允许文件以内存的速度在集群框架中进行可靠的共享,就像Spark和 MapReduce那样.通过利用信息继承,内存侵入,Tachyon获得了高性能.Tachyon工作集文件缓存在内存中,并且让不同的 Jobs/Queries以及框架都能内存的速度来访问缓存文件.因此,Tachyon可以减少那些需要经常使用的数据集通过访问磁盘来获得的次数. 2.Tachyon能解决什么问题:(摘自Tachyon 分布式内存文件系统) 1.不同Fra