Alluxio 内存存储系统部署

一、文件下载和解压

1)下载地址:http://www.alluxio.org/download

2) 解压命令如下:

$ wget http://alluxio.org/downloads/files/1.2.0/alluxio-1.2.0-bin.tar.gz
$ tar xvfz alluxio-1.2.0-bin.tar.gz
$ cd alluxio-1.2.0

二、 配置文件更改

目前只是基本配置更改:

1) /data/spark/software/alluxio-1.2.0/conf下的  alluxio-env.sh.template 复制一份为: alluxio-env.sh

更改如下:


1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

#!/usr/bin/env bash

#

# The Alluxio Open Foundation licenses this work under the Apache License, version 2.0

# (the "License"). You may not use this work except in compliance with the License, which is

# available at www.apache.org/licenses/LICENSE-2.0

#

# This software is distributed on an "AS IS" basis, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND,

# either express or implied, as more fully set forth in the License.

#

# See the NOTICE file distributed with this work for information regarding copyright ownership.

#

# Copy it as alluxio-env.sh and edit that to configure Alluxio for your

# site. This file is sourced to launch Alluxio servers or use Alluxio shell

# commands.

#

# This file provides one way to configure Alluxio options by setting the

# following listed environment variables. Note that, setting this file will not

# affect jobs (e.g., Spark job or MapReduce job) that are using Alluxio client

# as a library. Alternatively, you can edit alluxio-site.properties file, where

# you can set all the configuration options supported by Alluxio

# (http://alluxio.org/documentation/) which is respected by both external jobs

# and Alluxio servers (or shell).

# The directory where Alluxio deployment is installed. (Default: the parent directory of libexec/).

export  ALLUXIO_HOME=/data/spark/software/alluxio-1.2.0

# The directory where log files are stored. (Default: ${ALLUXIO_HOME}/logs).

# ALLUXIO_LOGS_DIR

# Hostname of the master.

# ALLUXIO_MASTER_HOSTNAME

export ALLUXIO_MASTER_HOSTNAME=spark29

# This is now deprecated. Support will be removed in v2.0

# ALLUXIO_MASTER_ADDRESS

#export ALLUXIO_MASTER_ADDRESS=spark29

# The directory where a worker stores in-memory data. (Default: /mnt/ramdisk).

# E.g. On linux,  /mnt/ramdisk for ramdisk, /dev/shm for tmpFS; on MacOS, /Volumes/ramdisk for ramdisk

# ALLUXIO_RAM_FOLDER

export ALLUXIO_RAM_FOLDER=/data/spark/software/alluxio-1.2.0/ramdisk

# Address of the under filesystem address. (Default: ${ALLUXIO_HOME}/underFSStorage)

# E.g. "/my/local/path" to use local fs, "hdfs://localhost:9000/alluxio" to use a local hdfs

# ALLUXIO_UNDERFS_ADDRESS

export ALLUXIO_UNDERFS_ADDRESS=hdfs://spark29:9000

# How much memory to use per worker. (Default: 1GB)

# E.g. "1000MB", "2GB"

# ALLUXIO_WORKER_MEMORY_SIZE

export ALLUXIO_WORKER_MEMORY_SIZE=12GB

# Config properties set for Alluxio master, worker and shell. (Default: "")

# E.g. "-Dalluxio.master.port=39999"

# ALLUXIO_JAVA_OPTS

# Config properties set for Alluxio master daemon. (Default: "")

# E.g. "-Dalluxio.master.port=39999"

# ALLUXIO_MASTER_JAVA_OPTS

# Config properties set for Alluxio worker daemon. (Default: "")

# E.g. "-Dalluxio.worker.port=49999" to set worker port, "-Xms2048M -Xmx2048M" to limit the heap size of worker.

# ALLUXIO_WORKER_JAVA_OPTS

# Config properties set for Alluxio shell. (Default: "")

# E.g. "-Dalluxio.user.file.writetype.default=CACHE_THROUGH"

# ALLUXIO_USER_JAVA_OPTS

2)worker 下面的添加worker节点的地址

spark24

spark30

spark31

spark32

spark33

三 、主机配置更改

1)在家目录下更改 .bash_profile 添加一下内容:

export TACHYON_HOME=/data/spark/software/alluxio-1.2.0

PATH=$PATH:$HOME/bin:$HADOOP/bin:$JAVA_HOME/bin:$TACHYON_HOME/bin

2) 生效配置

source .bash_profile

四 、Spark 添加依赖Jar

1、在所有的spark主机的spark安装目录下的conf目录下

更改spark-env.sh 后面添加:export SPARK_CLASSPATH="/data/spark/software/spark-1.5.2-bin-hadoop2.6/lib/alluxio-core-client-spark-1.2.0-jar-with-dependencies.jar:$SPARK_CLASSPATH"

五 、分发到各个Worker节点上去

1、alluxio 软件:scp -r ./alluxio-1.2.0 spark30:/data/spark/software/

六、格式化和启动

1、进入到alluxio的安装目录下面的bin目录,执行命令: alluxio format  进行内存格式化。

2、启动集群:./alluxio-start.sh all

七、可能遇到问题

1、启动worker报错,报错内容:Pseudo-terminal will not be allocated because stdin is not a terminal.

更改:alluxio\bin\alluxio-workers.sh  的44行内容

原始内容为:

nohup ssh -o ConnectTimeout=5 -o StrictHostKeyChecking=no -t ${worker} ${LAUNCHER} \

改成如下:
nohup ssh -o ConnectTimeout=5 -o StrictHostKeyChecking=no -tt  $ {worker}  ${LAUNCHER} \

2、如果启动报sudo相关命令错误,是因为启动用户未在sudoers里面,需要将用户添加到此文件中,添加方法搜下root位置,再后面添加即可。

内容如下:

root ALL=(ALL) ALL
spark ALL=(ALL) ALL

同时把此文件中的:#Defaults    requiretty 注释掉。

3、如果还报错,可以在启动master之后,一个一个节点去启动worker。

八、 官网安装说明

官网安装说明:http://www.alluxio.org/docs/master/cn/Running-Alluxio-on-a-Cluster.html  有中文的,可以看看。

时间: 2024-10-06 18:30:42

Alluxio 内存存储系统部署的相关文章

基于Alluxio内存文件系统的缓存策略

Alluxio是一种基于内存的分布式文件系统,支持不同的缓存替换策略,来替换内存中的文件快.Alluxio中的文件时以文件块形式组织,其中文件通过自己实现的inode数据结构记录文件属性并索引. 下面首先介绍几种不同的缓存策略,这些缓存策略被广泛的应用在web,数据库,文件系统中. 1 基于访问频率的缓存策略 这种缓存策略是根据缓存单位的(在Alluxio中是文件块Block)访问频率来进行缓存调度,最常用的策略是LFU(Least Frequently Used)策略.该策略每次淘汰访问频率最

消息队列_Beanstalkd-0001.Beanstalkd之轻量级分布式内存队列部署?

简单介绍: 说明: Beantalkd是一个高性能,轻量级的分布式消息队列,最初设计目的是想通过后台异步执行耗时任务降低WEB应用页面访问延迟,支持过1000万用户的应用,被豆瓣内部广泛使用. 几大特性: 1. 支持持久化,默认使用内存,但可启动时-b指定持久化目录,将任务写入Binlog,以相同参数启动会自动恢复Binlog中内容 2. 支持优先级0~2^32,任务优先级越小表示优先级越高,默认优先级为1024 3. 支持超时重发,预设过期时间或TTR时间内如果没有发送delete/relea

GlusterFS + lagstash + elasticsearch + kibana 3 + redis日志收集存储系统部署 01

因公司数据安全和分析的需要,故调研了一下 GlusterFS + lagstash + elasticsearch + kibana 3 + redis 整合在一起的日志管理应用: 安装,配置过程,使用情况等续 一,glusterfs分布式文件系统部署: 说明: 公司想做网站业务日志及系统日志统一收集和管理,经过对mfs, fastdfs 等分布式文件系统的调研,最后选择了 glusterfs,因为Gluster具有高扩展性.高性能.高可用性.可横向扩展的弹性特点,无元数据服务器设计使glust

利用Alluxio系统提升按需数据分析服务的性能

本文由南京大学顾荣.施军翻译整理自Alluxio公司技术博客,由Alluxio公司授权CSDN首发(联合),版权归Alluxio公司所有,未经版权所有者同意请勿转载. 1.场景问题分析 在很多大数据应用场景中,某些具体的处理问题通常只涉及到整体数据集的一个子集或部分数据.这导致长时间占用大规模集群的整体数据分析方式的资源有效利用率较低,并且总体代价较高,尤其在系统采用计算和存储并置(co-locate)部署架构的场景下各位严重.另外,在很多即席查询和计算应用中,数据的分析任务通常由上层用户零散地

采用alluxio提升MR job和Spark job性能的注意点

1. 介绍 2. 实验说明 2.1 实验环境 2.2 实验方法 2.3 实验负载 3. MapReduce on alluxio 3.1 读取10G文件(1G split) 3.2 读取20G文件(1G split) 3.3 读取60G文件(1G split) 3.4 读取60G文件(512MB split) 4. Spark on Alluxio 5. 关于使用alluxio来提升性能的注意点 5.1 alluxio是否以memory speed来进行读写? 5.2 如何使用alluxio提升

spark on alluxio和MR on alluxio测试(改进版)【转】

转自:http://kaimingwan.com/post/alluxio/spark-on-alluxiohe-mr-on-alluxioce-shi-gai-jin-ban 1. 介绍 2. 准备数据 2.1 清空系统缓存 3. MR测试 3.1 MR without alluxio 3.2 MR with alluxio 3.3 问题补充 4. spark测试 4.1 spark without alluxio 4.2 spark with alluxio 5. 第一阶段实验总结 6. I

002 ceph的deploy部署

介绍:前期对ceph有一个简单的介绍,但是内容太大,并不具体,接下来使用ceph-deploy部署一个Ceph集群,并做一些运维管理工作,深入的理解Ceph原理及工作工程! 一.环境准备 本次使用的虚拟机测试,使用7.6系统最小化安装,CentOS Linux release 7.6.1810 (Core) 主机规划: 节点 类型 IP CPU 内存 ceph-deploy 部署管理平台 172.25.254.130 2 C 4 G ceph Monitor OSD 172.25.254.131

分布式技术一周技术动态 2016.08.07

searcher 分布式纵向方向主要涵盖的范围包括分布式系统理论和设计实践, 资源管理和虚拟化技术, 大规模服务稳定性技术, DevOps和自动运维技术等方面, “分布式方向一周技术动态"是我每周总结和整理的关于分布式方向的精选技术文章, 希望以此让大家能够跟踪业界相关的技术动态, 培养大家对分布式系统的兴趣, 学习分布式系统理论和设计思路, 辅助大家的日常工作. 每周的技术动态会在hi群和邮件组里同步发布, 欢迎大家阅读. 对于后续 分布式技术动态 有任何意见或者建议, 大家可以随时联系我.

java处理高并发高负载类网站的优化方法

一:高并发高负载类网站关注点之数据库 没错,首先是数据库,这是大多数应用所面临的首个SPOF.尤其是Web2.0的应用,数据库的响应是首先要解决的. 一般来说MySQL是最常用的,可能最初是一个mysql主机,当数据增加到100万以上,那么,MySQL的效能急剧下降.常用的优化措施是M-S(主-从)方式进行同步复制,将查询和操作和分别在不同的服务器上进行操作.我推荐的是M-M-Slaves方式,2个主Mysql,多个Slaves,需要注意的是,虽然有2个Master,但是同时只有1个是Activ