Alluxio1.0.1最新版(Tachyon为其前身)介绍,+HDFS分布式环境搭建

Alluxio(之前名为Tachyon)是世界上第一个以内存为中心的虚拟的分布式存储系统。它统一了数据访问的方式,为上层计算框架和底层存储系统构建了桥梁。 应用只需要连接Alluxio即可访问存储在底层任意存储系统中的数据。此外,Alluxio的以内存为中心的架构使得数据的访问速度能比现有常规方案快几个数量级。在大数据生态系统中,Alluxio介于计算框架(如Apache Spark,Apache MapReduce,Apache Flink)和现有的存储系统(如Amazon S3,OpenStack Swift,GlusterFS,HDFS, Ceph,OSS)之间。 Alluxio为大数据软件栈带来了显著的性能提升。例如,百度采用Alluxio使他们数据分析流水线的吞吐量提升了30倍。 巴克莱银行使用Alluxio将他们的作业分析的耗时从小时级降到秒级。 除性能外,Alluxio为新型大数据应用作用于传统存储系统的数据建立了桥梁。 用户可以以独立集群方式(如Amazon EC2)运行Alluxio,也可以从Apache Mesos或Apache YARN上启动Alluxio。Alluxio与Hadoop是兼容的。这意味着已有的Spark和MapReduce程序可以不修改代码直接在Alluxio上运行。Alluxio是一个已在多家公司部署的开源项目(Apache License 2.0)。 Alluxio是发展最快的开源大数据项目之一。自2013年4月开源以来, 已有超过50个组织机构的 200多贡献者参与到Alluxio的开发中。包括 阿里巴巴Alluxio百度CMUIBMIntelRed HatUC Berkeley和 Yahoo。Alluxio处于伯克利数据分析栈( BDAS)的存储层,也是Fedora发行版的一部分。

以上这段概要从官网摘下,自己再总结一下:

1.首先,它是和Hadoop兼容的,所以很多Spark,MapReduce程序可以直接跑,那为什么还要用到Alluxio呢?    

  答:因为它是基于内存的,可以把中间结果文件,或者一些文件缓存起来,可以选择刷到磁盘上或者其他很多读写方式,简化了分布式系统中内存的管理,减少读写磁盘.

2.第二,该文件系统对于一个文件只能写一次,就是在你创建的时候可以写,之后你就只能读了.(在官方的文档上有)

3.第三,该文件系统可以和zookeeper整合起来,(虽然笔者没有试),但是Alluxio自身是无法加分布式锁的,所以他的应用场景可能比较特殊,我认为比较适合只读的情况比较好,当并发的写入同一个文件时,可能无法得到保证.

架构部分

在明确了他的特点后,就和看病一样总得理解它有哪些部位,所以架构还是有必要了解,自己学习的时候开始总不好好看官方文档会浪费时间.架构主要分为三个角色,master,worker,client.master与worker构成服务端,而我们的程序只和client端打交道.这里提供官方网站--架构部分(中文版)非常好理解才一页.http://alluxio.org/documentation/v1.0.1/cn/Architecture.html.我就不敖述了.

开始动手搭建.

需要1.java运行环境 2.hdfs搭建 3.搭建Alluxio4.操作系统为centos7

本文java版本为1.7.0_71  HDFS版本为hadoop-2.7.1  Alluxio版本为当前最新alluxio-1.0.1 (可能是版本问题,Tachyon 0.8无法连接hdfs.走了很多弯路)

  我在两台机器暂且称为A B. A作为MASTER B作为SLAVE2.在此前已经配置完HDFS.

  可以访问Master端的50070确认HDFS是否正常也可以 用jps命令.该命令可以看到所有的JAVA运行程序的PID.

  此时A机器上会有一个SecondaryNameNode,NameNode. B机器上会有DataNode 进程.

  搭建步骤:

  1.在master机器上运行

wget http://alluxio.org/downloads/files/1.0.1/alluxio-1.0.1-bin.tar.gz
tar xvfz alluxio-1.0.1-bin.tar.gz

  2.安装完毕后

   将alluxio-1.0.1/conf 中的alluxio-env.sh.template 拷贝一份命名为alluxio-env.sh.该脚本其实就是配置文件.

   主要配置几个地方(仅贴上修改处 其他都没有变动)    

export ALLUXIO_MASTER_ADDRESS=${ALLUXIO_MASTER_ADDRESS:-master}
export ALLUXIO_UNDERFS_ADDRESS=${ALLUXIO_UNDERFS_ADDRESS:-hdfs://master:9000/alluxio}

   这里"/alluxio"是我已经在HDFS中创建的文件夹.也可以不写. 还有一个问题这里的-master是什么意思? 此前我并没有配置master.他怎么会知道呢.

   答:alluxio会从/etc/hosts 中去寻找映射,所以你必须给master 和slave配上对应的ip地址.(图为我自己的hosts配置)

 

   此时最后还需要修改conf/workers(之前tachyon 一致没搞懂 居然又有slave 文件又有workder.)在里面把localhost注释,加上你集群中的节点.

   

   到这里配置全部结束.

   cd到alluxio目录下执行(该命令会把该目录scp到所有的节点上)

./bin/alluxio copyDir .

   此时执行(官网推荐是all Mount 不过我没关系.)

$ ./bin/alluxio format
$ ./bin/alluxio-start.sh all NoMount

   (期间会要你输入很多密码,原理就是它会ssh到各个机器上去启动worker 不过没关系,我们可以百度ssh免密码登陆,这个帖子太多,但是有两个小细节 第一就是 authoried_keys权限必须是600 而且你的用户比如我是imdb 那么 /home/imdb的权限必须是700 网上博客都没说!!!!!)

之后可以jps一下 发现master端多了AlluxioWorker和AlluxioMaster slave端多了AlluxioWorker. 可以用去测试.应该是通过的.

$ ./bin/alluxio runTests

打开浏览器输入http://master:19999/home

就搞定了.在本地模式的API官网上有,只需把 alluxio中assembly/target/alluxio-assemblies-1.0.1-jar-with-dependencies.jar加到eclipse里面API官网有就不多讲.

但是,不得不说,分布式的读写API我官网上没有找到文档,博客也都是非常老旧.唯一办法是从它文件夹里的Test案例自己摸索...网上的文章太少,所以特此写一下,有错误请大家纠正.

   

   

时间: 2024-10-11 10:19:47

Alluxio1.0.1最新版(Tachyon为其前身)介绍,+HDFS分布式环境搭建的相关文章

_00022 Flume-1.5.0+Kafka_2.9.2-0.8.1.1+Storm-0.9.2 分布式环境整合

博文作者:妳那伊抹微笑 博客地址:http://blog.csdn.net/u012185296 博文标题:_00022 Flume-1.5.0+Kafka_2.9.2-0.8.1.1+Storm-0.9.2 分布式环境整合 个性签名:世界上最遥远的距离不是天涯,也不是海角,而是我站在妳的面前,妳却感觉不到我的存在 技术方向:Flume+Kafka+Storm+Redis/Hbase+Hadoop+Hive+Mahout+Spark ... 云计算技术 转载声明:可以转载, 但必须以超链接形式标

Spark1.0.0 分布式环境搭建

软件版本如下: Hostname IP Hadoop版本 Hadoop 功能 系统 master 192.168.119.128 1.1.2 namenode jdk1.6+hadoop+scala2.9.3+spark1.0.0 centos4.9 slave1 192.168.119.129 1.1.2 datanode jdk1.6+hadoop+scala2.9.3+spark1.0.0 centos4.9 slave2 192.168.119.130 1.1.2 datanode jd

ubuntu12.04+hadoop2.2.0+zookeeper3.4.5+hbase0.96.2+hive0.13.1分布式环境部署

博文作者:迦壹 博客地址:http://idoall.org/home.php?mod=space&uid=1&do=blog&id=542 转载声明:可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明,谢谢合作! --------------------------------------- 目录: 一.hadoop2.2.0.zookeeper3.4.5.hbase0.96.2.hive0.13.1都是什么? 二.这些软件在哪里下载? 三.如何安装 1.安装JD

Windows7 QT5.6.0(64位)使用mysql(64位)环境搭建详解

1 说明 使用环境为:Windows7 VS2015 QT5.6.0(64位),MYSQL 5.7.13(64位). 网上各种错误.模糊.抽象的资料,配置环境花了半天,痛定思痛,总结出来,方便后来人. 原创,转载请注明出处. 2 方法/步骤 2.1 下载和安装QT和MYSQL QT和MYSQL安装部分先后顺序.(VS2015当然也要安装,此处不做详细描述). 2.1.1 下载安装MYSQL 2.1.1.1 下载MYSQL 下载地址:http://dev.mysql.com/downloads/m

hadoop2.6.0实践:002 检查伪分布式环境搭建

1.检查网络配置[[email protected] ~]# cat /etc/sysconfig/networkNETWORKING=yesHOSTNAME=hadoop-masterGATEWAY=192.168.126.2 [[email protected] ~]# cat /etc/hosts127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4::1 localhost localhos

_00014 hadoop-2.2.0 伪分布式环境搭建

http://passport.baidu.com/?business&un=%E5%B0%8F%E5%A7%90%5F%E6%B5%B7%E5%AE%81%5F%E6%89%BE%5F#0 http://passport.baidu.com/?business&un=%E5%B0%8F%E5%A7%90%E6%B5%B7%E5%AE%81%E6%8C%89%E6%91%A9%E6%89%BE#0 http://passport.baidu.com/?business&un=%E5

在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境

近几年大数据越来越火热.由于工作需要以及个人兴趣,最近开始学习大数据相关技术.学习过程中的一些经验教训希望能通过博文沉淀下来,与网友分享讨论,作为个人备忘. 第一篇,在win7虚拟机下搭建hadoop2.6.0伪分布式环境. 1. 所需要的软件 使用Vmware 11.0搭建虚拟机,安装Ubuntu 14.04.2系统. Jdk 1.7.0_80 Hadoop 2.6.0 2. 安装vmware和ubuntu 略 3. 在ubuntu中安装JDK 将jdk解压缩到目录:/home/vm/tool

已经测试vmgsim.V9.0.46 最新版流程模拟软件

已经测试vmgsim.V9.0.46 最新版流程模拟软件     VMGSim 物性数据库包括5600 多个纯组分,100,000个以上的二元交互作用参数数据库,以及大量的混 合物交互作用参数,并在此基础上进行物性数据的严格计算:对于炼油模型,VMGSim集成了利用油品分析 评价数据进行炼油物流表征及油品特殊物性计算的强大功能:vmgsim在石油天然气,石油炼制,石油化工 等域,利用VMGSim你能够准确建模并预测大多数的工艺装置的性能:VMGSim在提高模拟模型的使用和开发 效率方面有了新的创

PyCharm5.0.2最新版破译注册激活码(图文版)

PyCharm5.0.2最新版破解注册激活码(图文版) 下载PyCharm http://download-cf.jetbrains.com/python/pycharm-professional-5.0.2.exe 安装PyCharm 设置激活服务器  http://idea.lanyus.com